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对 那些 没有 学 过 编程 的 人 来 说 ， 计 算 机 编程 看 着 就 像 变 魔术 。 如 果 编 程 是 魔术 (magic)， 
那么 网 页 抓 取 (Web scraping) 就 是 巫 术 (wizardry)， 也 就 是 运用 “魔术 ”来 实现 精彩 实 
用 却 又 不 费 吹 灰 之 力 的 “壮举 ”。 








在 我 的 软件 工程 师 职业 生涯 中 ,我 几乎 没有 发 现 像 网 页 抓 取 这 样 的 编程 实践 ， 可 以 同时 吸 
引 程序 员 和 门外汉 的 注意 。 虽 然 写 一 个 简单 的 网 络 爬 虫 并 不 难 ， 就 是 先 收集 数据 ， 再 显示 
到 命令 行 或 者 存储 到 数据 库 里 ， 但 是 无 论 你 之 前 已 经 做 过 多 少 次 了 ， 这 件 事 永远 会 让 你 感 
到 兴奋 ， 同 时 又 有 新 的 可 能 








不 过 遗憾 的 是 ， 当 和 别 的 程序 员 提 起 网 页 抓 取 时 ， 我 听 到 了 很 多 关于 这 件 事 的 误解 与 
困惑 。 有 些 人 不 确定 它 是 不 是 合法 的 〈 其 实 合 法 )， 有 些 人 不 明白 怎么 处 理 包 含 大 量 
JavaScript 的 页 面 以 及 如 何 处 理 登录 问题 。 很 多 人 困惑 于 如 何 开 始 一 个 大 的 网 页 抓 取 项 目 ， 
甚至 是 到 哪里 寻找 他 们 需要 的 数据 。 本 书 致 力 于 解决 人 们 关于 网 页 抓 取 的 诸多 常见 问题 ， 
廓 请 一些 误解 ， 并 对 常见 的 网 页 抓 取 任务 提供 全 面 的 指导 。 
























































网 页 抓 取 是 一 个 复杂 多 变 的 领域 ， ee E 地 者 

盖 你 可 能 会 在 数据 抓 取 项 目 中 遇 到 的 情形 。 本 书 提供 了 代码 示例 来 演示 书 中 的 概念 ， 你 
可 以 尝试 运行 它们 来 实践 。 这 些 代码 示例 是 开源 的 ， 无 论 注 明 出 处 与 否 都 可 以 免费 使 用 
(但 若 注 明 ， 作 者 会 感激 不 尽 )。 所 有 的 代码 示例 都 在 GitHub 网 站 上 (https://github.com/ 
REMitchell/python-scraping ) ， 可 以 查看 和 下 载 。 


什么 是 网 页 抓 取 


在 互联 网 上 进行 自动 数据 抓 取 这 件 事 和 互联 网 存在 的 时 间 差 不 多 一 样 长 。 虽 然 网 页 抓 取 并 
不 是 新 术语 ， 但 是 多 年 以 来 ， 这 件 事 更 常见 的 称谓 是 网 页 抓 屏 (screen scraping)、 数 据 挖 
掘 (data mining)、 网 页 收割 (Web harvesting) 或 其 他 类 似 的 版 本 。 今 天 大 众 好 像 更 倾向 
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于 用 “网 页 抓 取 ”， 因 此 我 在 本 书 中 使 用 这 个 术语 ， 不 过 我 倾向 于 把 遍历 多 个 页 面 的 程序 
称 作 网 络 息 虫 (Web crawler) ， 或 者 把 网 页 抓 取 程序 称 为 网 络 机 器 人 (bot)。 


理论 上 ， 网 页 抓 取 是 一 种 通过 多 种 手段 收集 网 络 数据 的 方式 ， 不 光 是 通过 与 API 交互 (或 
者 直接 与 浏览 器 交互 ) 的 方式 。 最 常用 的 方法 是 写 一 个 自动 化 程序 向 网 络 服务 器 请 求 数据 
(通常 是 用 HTML 表单 或 其 他 网 页 文件 )， 然 后 对 数据 进行 解析 ， 提 取 需 要 的 信息 。 


实践 中 ， 网 页 抓 取 涉 及 非常 广泛 的 编程 技术 和 手段 ， 比 如 数据 分 析 、 自 然 语言 解析 和 信息 
安全 等 。 本 书 将 在 第 一 部 分 介绍 关于 网 页 抓 取 和 网 页 爬 取 (crawling) 的 基础 知识 ， 一 些 
高 级 主题 放 在 第 二 部 分 介绍 。 我 建议 所 有 读者 仔细 学 习 第 一 部 分 ， 并 根据 自己 的 实际 需求 
深入 探索 第 二 部 分 。 


为 什么 要 做 网 页 抓 取 


如 果 你 上 网 的 唯一 方式 就 是 用 浏览 器 ， 那 么 你 其 实 错过 了 很 多 种 可 能 。 虽 然 浏 览 器 可 以 更 
方便 地 执行 JavaScript、 显 示 图 片 ， 并 且 可 以 以 更 适合 人 类 阅读 的 形式 展示 数据 ， 但 是 网 
络 爬 虫 收集 和 处 理 大 量 数据 的 能 力 更 为 草 越 。 不 像 狭 窗 的 显示 器 窗口 一 次 只 能 让 你 看 一 个 
网 页 ， 网 络 腿 虫 可 以 让 你 一 次 查看 几 千 甚至 几 百 万 个 网 页 。 
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另外 ， 网 络 扑 虫 可 以 完成 传统 搜索 引擎 不 能 做 的 事情 。 用 Google 搜索 “ 飞 往 波士顿 最 便 
宜 的 航班 ， 看 到 的 是 大 量 的 广告 和 主流 的 航班 搜索 网 站 。Google 只 知道 这 些 网 站 的 网 页 
会 显示 什么 内 容 ， 并 不 知道 在 航班 搜索 应 用 中 输入 的 各 种 查询 的 准确 结果 。 但 是 ， 设 计较 
好 的 网 络 仆 虫 可 以 通过 抓 取 大 量 的 网 站 数据 ， 绘 制 出 飞 往 波士顿 的 航班 价格 随时 间 变 化 的 
图 表 ， 告 诉 你 买 机 票 的 最 佳 时 间 。 









































你 可 能 会 问 :“ 数 据 不 是 可 以 通过 API 获取 吗 ?”( 如 果 你 不 熟悉 API， 请 阅读 第 12 章 。) 
确实 ， 如 果 你 能 找到 一 个 可 以 解决 问题 的 API， 那 会 非常 给 力 。 它 可 以 非常 方便 地 从 一 个 
计算 机 程序 向 另 一 个 计算 机 程序 提供 格式 完好 的 数据 。 对 于 很 多 类 型 的 数据 都 可 以 找到 一 
个 API， 比 如 推 文 或 者 维基 百科 页 面 。 通 常 ， 如 果 有 API 可用， 用 API 来 获取 数据 确实 比 
写 一 个 网 络 扑 虫 程序 更 加 方便 。 但 是 ， 很 多 时 候 你 需要 的 API 并 不 存在 或 者 不 适用 于 你 的 
需求 ， 这 是 因为 : 


。 你 要 收集 的 数据 来 自 不 同 的 网 站 ， 没 有 一 个 综合 多 个 网 站 数据 的 API; 

。 你 想 要 的 数据 非常 小 众 或 不 常见 ， 网 站 不 会 为 你 单独 创建 一 个 API; 
网 站 没有 基础 设施 或 技术 能 力 去 创建 APIL; 

。 数据 很 宝贵 / 被 保护 起 来 ， 不 希望 广泛 传播 。 


即使 API 已 经 存在 ， 可 能 还 会 有 请 求 内 容 和 次 数 的 限制 ，API 能 够 提供 的 数据 类 型 或 者 数 
据 格式 可 能 也 无 法 满足 你 的 需求 。 



























































这 时 网 页 抓 取 就 派 上 用 场 了 。 你 在 浏览 器 上 看 到 的 内 容 ， 大 部 分 都 可 以 通过 编写 Python 程 
序 来 获取 。 如 果 你 可 以 通过 程序 获取 数据 ， 那 么 就 可 以 把 数据 存储 到 数据 库 里 。 如 果 你 上 
以 把 数据 存储 到 数据 库 里 ， 自 然 也 就 可 以 将 这 些 数据 可 视 化 。 


显然 ， 大 量 的 应 用 场景 都 会 需要 这 种 几乎 可 以 毫 无 阻 得 地 获取 数据 的 手段 市 场 预测 、 机 
器 语言 翻译 ， 甚 至 医疗 诊断 领域 ， 通 过 对 新 闻 网 站 、 文 章 以 及 健康 论坛 中 的 数据 进行 抓 取 
和 分 析 ， 也 可 以 获得 很 多 好 处 。 


甚至 在 艺术 领域 ， 网 页 抓 取 也 为 艺术 创作 开辟 了 新 方向 。 由 Jonathan Harris 和 Sep Kamvar 
在 2006 年 发 起 的 “我 们 感觉 挺 好 ”(We Feel Fine) 项 目 ， 从 大 量 英 文博 客 中 抓 取 以 “I 
feel” 和 “I am feeling” 开 头 的 短 句 ， 最 终 做 成 了 一 个 很 受 大 众 欢 迎 的 数据 可 视图 ， 描 述 了 
这 个 世界 每 天 、 每 分 钟 的 感觉 。 





























无 论 你 现在 处 于 哪个 领域 ， 网 页 抓 取 都 可 以 让 你 的 工作 更 高 效 ， 帮 你 提升 生产 力 ， 其 至 开 
创 一 个 全 新 的 领域 。 


关于 本 书 


本 书 不 仅 介 绍 了 网 页 抓 取 ， 也 为 抓 取 、 转 换 和 使 用 新 式 网 络 中 各 种 类 型 的 数据 提供 了 全 面 
的 指导 。 虽 然 本 书 用 的 是 Python 编程 语言 ， 涉 及 Python 的 许多 基础 知识 ， 但 这 并 不 是 一 
本 Python 入 门 书 。 




















如 果 你 完全 不 了 解 Python， 那 么 这 本 书 看 起 来 可 能 有 点 儿 费 劲 。 请 不 要 将 本 书 用 作 Python 
的 入 门 书 。 我 尽量 按照 初 、 中 级 Python 编程 水 平 来 编写 书 中 的 概念 和 代码 示例 ， 以 便 让 更 
广泛 的 读者 可 以 轻松 地 理解 本 书 。 但 书 中 偶尔 会 包含 一 些 更 高 级 的 Python 编程 知识 以 及 一 
些 常见 的 计算 机 科学 话题 。 如 果 你 是 一 位 编程 高 手 ， 那 么 你 可 以 跳 过 书 中 相应 的 内 容 。 



































如 果 你 想 更 全 面 地 学 习 Python ,Bill Lubanovic 写 的 《Python 语言 及 其 应 用 》 :是 本 非常 好 的 
教材 ， 只 是 书 有 点 儿 厚 。 如 果 不 想 看 书 ，Jessica McKellar 的 教学 视频 Introduction to Python 
也 非常 不 错 。 我 也 非常 喜欢 我 的 前 教授 Allen Downey 写 的 《 像 计 算 机 科学 家 一 样 思考 
Python》， 这 本 书 非常 适合 编程 新 手 ， 介 绍 了 计算 机 科学 和 软件 工程 的 概念 ， 以 及 Python 


语言 。 


技术 书 通常 仅仅 专注 于 一 种 语言 或 者 一 种 技术 ,但 是 网 页 抓 取 是 一 个 相当 分 散 的 主题 
实践 中 会 涉及 数据 库 、 网 络 服务 器 、HTTP 协议 、HTML 语言 、 网 络 安 全 、 图 像 处 理 、 
据 科学 等 内 容 。 本 书 试图 从 “数据 收集 ”的 角度 涵盖 所 有 这 些 内 容 以 及 其 他 话题 。 当 然 ， 
本 书 不 会 对 这 些 主题 做 完整 的 介绍 ， 但 是 我 相信 对 于 入 门 编写 网 络 聆 虫 来 说 足够 了 。 



































在 
数 
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第 一 部 分 深入 讲解 网 页 抓 取 和 网 页 爬 取 相关 内 容 ， 并 重点 介绍 全 书 都 要 用 到 的 几 个 Python 



































注 1: 中 文 版 已 经 由 人 民 邮 电 出 版 社 出 版 ， 详 见 www.ituring.com.cn/book/1560。 一 一 编者 注 

















库 。 可 以 将 这 部 分 内 容 用 作 这 些 库 和 技术 的 综合 参考 (对 于 一 些 特殊 情形 ， 后 面 会 提供 其 
他 参考 资料 )。 这 部 分 内 容 对 于 所 有 编写 网 络 仆 虫 的 人 来 说 都 是 实用 的 ， 不 管 网 络 仆 虫 的 
目标 或 者 应 用 场景 如 何 。 

第 二 部 分 介绍 读者 在 动手 编写 网 络 慌 虫 的 过 程 中 可 能 会 觉得 有 用 的 一 些 主题 。 不 过 ， 这 些 
主题 可 能 并 不 总 是 适合 所 有 的 爬虫 。 这 些 主题 的 范围 特别 广泛 ， 无 法 在 一 章 中 道 尽 玄机 。 
因此 ， 文 中 提供 了 许多 参考 资料 来 方便 读者 获取 更 多 的 信息 。 

本 书 结构 清晰 ， 你 可 直接 跳 到 感 兴趣 的 章节 中 阅读 所 需 的 网 页 抓 取 技 术 。 如 果 一 个 概念 或 
一 段 代 码 在 之 前 的 章节 中 出 现 过 ， 那 么 我 会 明确 标注 出 具体 的 位 置 。 


排版 约定 


本 书 使 用 了 下 列 排版 约定 。 

















。 黑体 字 
表示 新 术语 或 重点 强调 的 内 容 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 
。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


。 斜体 等 宽 字 体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 





该 图 标 表示 一 般 性 说 明 。 





该 图 标 表 示 提 示 或 建议 。 








该 图 标 表示 警告 或 警示 。 











使 用 代码 示例 


补充 材料 (代码 示例 、 练 习 等 ) 可 以 从 https://github.com/REMitchell/python-scraping 下 载 。 





本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 书 中 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 各 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 书 中 
的 几 个 代码 片段 写 一 个 程序 无 须 获得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 获 
得 许可 ， 引 用 书 中 的 示例 代码 回答 问题 无 须 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产品 文 
档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。3 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Wep Scraping with Python, Second Edition by Ryan Mitchell 
(O’Reilly). Copyright 2018 Ryan Mitchell 978-1-491-998557-1.” 























如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 








遗憾 的 是 ， 纸 质 书 很 难保 持 更 新 。 对 于 网 页 抓 取 来 说 这 更 是 一 个 挑战 ， 由 于 本 书 用 到 的 很 多 
库 、 网 站 以 及 代码 可 能 偶尔 会 被 修改 ， 所 以 我 们 的 代码 示例 可 能 会 运行 失败 或 产生 意 想不到 
的 结果 。 如 果 你 需要 运行 代码 示例 ， 请 从 GitHub 仓库 获取 代码 并 运行 ， 而 不 是 从 书 中 直接 
复制 。 我 和 为 本 书 做 贡献 的 读者 (可 能 也 包括 你 ) 将 尽量 及 时 更 新 GitHub 仓库 的 内 容 。 


除了 代码 示例 ， 书 中 还 提供 了 用 于 演示 如 何 安 装 和 运行 软件 的 终端 命令 。 一 般 来 说 ， 这 些 
命令 是 适用 于 Linux 操作 系统 的 ， 但 是 通常 也 适用 于 拥有 正确 配置 的 Python 环境 并 安装 了 
pip 的 Windows 用 户 。 如 果 无 法 运行 这 些 终端 命令 ， 我 提供 了 针对 所 有 主流 操作 系统 的 命 
令 运 行 说 明 ， 并 为 Windows 用 户 提供 了 一 些 外 部 的 参考 资料 。 
































O'Reilly Safari 


4 S f 。 Safari (之 前 称 作 Safari Books Online) 是 一 个 针对 企业 、 政 府 、 教 
q | 育 者 和 个 人 的 会 员 制 培训 和 参考 平台 。 


会 员 可 以 访问 来 自 250 多 家 出 版 商 的 上 千 种 图 书 、 培 训 视 频 、 学 习 路 径 、 互 动 式 教程 和 
精 选 播放 列表 ， 这 些 出 版 商 包 括 O'Reilly Media、Harvard Business Review、Prentice Hall 


Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、 








Adobe、Focal Press、Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 
Redbooks、Packt、Adobe Press、 FT Press、Apress、Manning、New Riders、McGraw-Hill、 
Jones & Bartlett、Course Technology 等 。 


要 了 解 更 多 信息 ， 可 以 访问 http://www.oreilly.com/safari。 





并 
了 
x 
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联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 


O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 表 、 示 例 
代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : http://shop.oreilly.conyproduct/0636920078067.do。 


















































对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : bookquestions@oreilly.com。 








要 了 解 更 多 O'Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http:/www.oreilly.com 。 











我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly。 





请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia。 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia。 


致谢 

和 那些 基于 海量 用 户 反 馈 诞 生 的 优秀 产品 一 样 ， 如 果 没 有 许多 协作 者 、 支 持 者 和 编辑 的 
帮助 ， 本 书 可 能 永远 都 不 会 出 版 。 首 先 要 感谢 O'Reilly 团队 对 这 个 小 众 主 题 图 书 的 大 力 支 
持 ， 感 谢 我 的 朋友 和 家 人 阅读 初稿 并 提出 宝贵 的 建议 ， 还 要 感谢 和 我 一 起 在 HedgeServ 奋 
战 的 同事 们 帮 有 我 分 担 了 很 多 工作 。 














尤其 要 感谢 Allyson MacDonald、Brian Anderson、Miguel Grinberg 和 Eric VanWyk 的 建议 、 
指导 和 偶尔 的 爱 之 深 责 之 切 。 有 一 些 章节 和 代码 示例 是 根据 他 们 的 建议 写成 的 。 








还 要 感谢 Yale Specht 过 去 4 年 中 在 本 书 两 个 版 本 上 的 无 尽 耐 心 ， 他 在 最 初 便 鼓 励 我 从 事 这 
个 项 目 ， 并 在 我 的 写作 过 程 中 对 文体 提出 了 宝贵 的 建议 。 没 有 他 ， 这 本 书 可 能 只 用 一 半 时 
间 就 能 写 完 ， 但 是 不 会 像 现在 这 么 实用 。 
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Science of C 那 本 书 ， 帮 她 开启 了 计算 机 世界 的 大 门 。 


电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 























第 一 部 分 


创建 爬虫 





本 书 第 一 部 分 重点 介绍 网 页 抓 取 的 基本 原理 : 如 何 用 Python 从 网 络 服务 器 请 求 信息 ， 如 何 
对 服务 器 的 响应 进行 基本 处 理 ， 以 及 如 何以 自动 化 方式 与 网 站 交互 。 最 终 ， 你 将 轻松 游 尺 
于 网 络 空间 ， 创 建 出 具有 域名 切换 、 信 息 收 集 以 及 信息 存储 功能 的 怜 虫 。 


说 实话 ， 如 果 你 想 以 较 少 的 预先 投入 获取 较 高 的 回报 ， 网 页 抓 取 肯定 是 一 个 值得 踏 入 的 神 
奇 领域 。 大 体 上 ， 你 遇 到 的 90% 的 网 页 抓 取 项 目 使 用 的 都 是 接 下 来 的 6 章 里 介绍 的 技术 。 
这 部 分 内 容 涵 盖 了 一 般 人 (也 包括 技术 达 人 ) 在 思考 “网 络 仆 虫 ” 时 通常 的 想法 : 


。 通过 网 站 域名 获取 HTML 数据 

。 解析 数据 ， 获 取 目 标 信息 

。 存储 目标 信息 

。 如 果 有 必要 ， 移 动 到 另 一 个 网 页 重复 这 个 过 程 

这 将 为 你 学 习 本 书 第 二 部 分 中 更 复杂 的 项 目 疯 定 坚 实 的 基础 。 不 要 天 真 地 认为 这 部 分 内 容 
没有 第 二 部 分 里 的 一 些 比较 高 级 的 项 目 重 要 。 其 实 ， 当 你 写 自 己 的 网 络 爬 虫 时 ， 几 乎 每 天 
都 要 用 到 第 一 部 分 的 所 有 内 容 。 











第 1 章 


初 见 网 络 翁 虫 





一 旦 你 开始 抓 取 网 页 ， 就 会 感受 到 浏览 器 为 我 们 做 的 所 有 细 广 。 网 页 上 如 果 没 有 HTML 文 
本 格式 层 、CSS 样式 层 、JavaScript 执行 屋 和 图 像 泻 染 层 ， 乍 看 起 来 会 有 点 儿 吓 人 ， 但 是 
在 这 一 章 和 下 一 章 中 ， 我 们 将 介绍 如 何在 不 借助 浏览 器 帮助 的 情况 下 格式 化 和 理解 数据 。 


本 章 将 首先 向 网 络 服务 器 发 送 GET 请 求 (获取 网 页 内 容 的 请 求 ) 以 获取 具体 网 页 ， 再 从 
网 页 中 读 取 HTML 内 容 ， 最 后 做 一 些 简单 的 信息 提取 ， 将 我 们 要 寻找 的 内 容 分 离 出 来 。 


1.1 网 络 连 接 


如 果 你 没 在 网 络 或 网 络 安全 上 花 过 太 多 时 间 ， 那 么 互联 网 的 原理 可 能 看 起 来 有 点 儿 神 秘 。 
准确 地 说 ， 每 当 打开 浏览 器 连接 http://google.com 的 时 候 ， 我 们 不 会 思考 网 络 正在 做 什么 ， 
而 且 如 今 也 不 必 思 芳 。 实 际 上 ， 我 认为 很 神奇 的 是 ， 计 算 机 接口 已 经 如 此 先进 ， 让 大 多 数 
人 上 网 的 时 候 完 全 不 思考 网 络 是 如 何 工 作 的 。 




















但 是 ， 网 页 抓 取 需 要 抛 开 一 些 接口 的 遮挡 ， 不 仅 是 在 浏览 器 层 ( 它 如 何 解释 所 有 的 
HTML、CSS 和 JavaScript)， 有 时 也 包括 网 络 连 接 层 。 

我 们 通过 下 面 的 例子 让 你 对 浏 览 器 获取 信息 的 过 程 有 一 个 基本 的 认识 。Alice 有 一 台 网 络 
服务 器 。Bob 有 一 台 台 式 机 正 试图 连接 到 Alice 的 服务 器 。 当 一 台 机 器 想 与 另 一 台 机 器 对 
话 时 ， 下 面 的 某 个 行为 将 会 发 生 。 


(1) Bob 的 电脑 发 送 一 串 1 和 0 比特 值 ， 表 示 电 路 上 的 高 低 电 压 。 这 些 比 特 构成 了 一 种 信 
息 ， 包 括 请 求 头 和 消息 体 。 请 求 头 包含 当前 Bob 的 本 地 路 由 器 MAC 地 址 和 Alice 的 全 























地 址 。 消 息 体 包含 Bob 对 Alice 服务 器 应 用 的 请 求 。 

(2) Bob 的 本 地 路 由 器 收 到 所 有 1 和 0 比特 值 ， 把 它们 理解 成 一 个 数据 包 (packet) ， 从 
Bob 自己 的 MAC 地 址 “ 寄 到 ”Alice 的 IP 地 址 。 他 的 路 由 器 把 数据 包 “ 盖 上 ”自己 的 
卫 地 址 作为 “发 件 ” 地 址 ， 然 后 通过 互联 网 发 出 去 。 

(3) Bob 的 数据 包 游 历 了 一 些 中 介 服 务 器 ， 沿 着 正确 的 物理 /电路 路 径 前 进 ， 到 了 Alice 的 
服务 器 。 

(4) Alice 的 服务 器 在 她 的 IP 地 址 收 到 了 数据 包 。 

(5) Alice 的 服务 器 读 取 数据 包 请 求 头 里 的 目标 端口 ， 然 后 把 它 传递 到 对 应 的 应 用 一 一 网 络 
服务 器 应 用 。( 目标 端口 通常 是 网 络 应 用 的 80 端口 ， 可 以 理解 成 数据 包 的 “房间 号 ”， 
IP 地 址 就 是 “街道 地 址 ” ) 。 

(6) 网 络 服务 器 应 用 从 服务 器 处 理 器 收 到 一 串 数据 ， 数 据 是 这 样 的 : 
- 这 是 一 个 GET 请 求 
一 ”请求 文件 index.html 

(7) 网 络 服务 器 应 用 找到 对 应 的 HIML 文件 ， 把 它 打包 成 一 个 新 的 数据 包 发 送 给 Bob， 然 
后 通过 它 的 本 地 路 由 器 发 出 去 ， 用 同样 的 过 程 回 传 到 Bob 的 机 器 上 。 


























瞧 ! 我 们 就 这 样 实现 了 互联 网 。 











那么 ， 在 这 场 数据 交换 中 ，Web 浏览 器 是 从 哪里 开始 参与 的 ?完全 没有 参与 。 其 实 ， 在 互 
联网 的 历史 中 ， 浏 览 器 是 一 个 比较 新 的 发 明 ， 始 于 1990 年 的 Nexus 浏览 器 。 


的 确 ，Web 浏览 器 是 一 个 非常 有 用 的 应 用 ， 它 创建 信息 的 数据 包 ， 命 令 操 作 系 统 发 送 它 
们 ， 然 后 把 你 获取 的 数据 解释 成 漂亮 的 图 像 、 声 音 、 视 频 和 文字 。 但 是 ，Web 浏览 器 就 是 
代码 ， 而 代码 可 以 分 解 成 许多 基本 组 件 ， 可 重 写 、 重 用 ， 以 及 做 成 我 们 想 要 的 任何 东西 。 
Web 浏览 器 可 以 让 处 理 器 将 数据 发 送 到 那些 对 接 无 线 (或 有 线 ) 网 络 接口 的 应 用 上 ， 但 是 
你 可 以 用 短 短 的 3 行 Python 代码 实现 这 些 功能 : 

















from urllib.request import urlopen 


html = urlopen('http://pythonscraping.com/pages/pagel.html') 

print(html.read()) 
你 可 以 使 用 GitHub 仓库 中 的 iPython notebook for Chapter 1 (https://github.com/REMitchell/ 
python-scraping/blob/masterChapter01 BeginningToScrape.ipynb) 运行 以 上 代码 ， 也 可 以 把 
上 面 这 段 代 码 保存 为 scrapetest.py， 然 后 在 终端 运行 如 下 命令 : 

















$ python scrapetest.py 


注意 ， 如 果 你 的 设备 上 也 安装 了 Python 2.x， 并 且 同 时 运行 两 个 版 本 的 Python， 可 能 需要 
直接 指明 版 本 才能 运行 Python 3.x 代码 : 





$ python3 scrapetest.py 
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这 将 会 输出 http://pythonscraping.com/pages/pagel.html 这 个 网 页 的 全 部 HTML 代码 。 更 
准确 地 说 ， 这 会 输出 在 域名 为 http://pythonscraping.com 的 服务 器 上 < 网 络 应 用 根 地 址 >/ 
pages 文件 夹 里 的 HTML 文件 pagel.html 的 源 代码 。 


为 什么 将 这 些 地 址 理解 为 “文件 ”而 不 是 “页 面 ”非常 关键 呢 ? 现在 大 多 数 网 页 需要 加 载 
许多 相关 的 资源 文件 ， 可 能 是 图 像 文件 、JavaScript 文件 、CSS 文件 ， 或 你 需要 连接 的 其 
他 各 种 网 页 内 容 。 当 Web 浏览 器 遇 到 一 个 标签 时 ， 比 如 <img src="cuteKitten.jpg">， 会 
向 服务 器 发 起 另 一 个 请 求 ， 以 获取 cuteKitten.jpg 文件 中 的 数据 为 用 户 充分 泻 染 网 页 。 


当然 ， 你 的 Python 程序 没有 返回 并 向 服务 器 请 求 多 个 文件 的 逻辑 ， 它 只 能 读 取 你 直接 请 求 
的 单个 HTML 文件 。 












































from urllib.request import urlopen 








上 面 的 代码 其 实 已 经 表明 了 它 的 含义 : 它 查 找 Python 的 request 模块 (在 urLLib 库 里 面 )， 
只 导入 urlopen 国 数 。 

















urllib 是 Python 的 标准 库 (就 是 说 你 不 用 额外 安装 就 可 以 运行 这 个 例子 )， 包 含 了 从 网 页 
请 求 数据 ， 处 理 cookie， 甚 至 改变 像 请 求 尖 和 用 户 代理 这 些 元 数据 的 函数 。 我 们 将 在 本 书 
中 广泛 使 用 urtLib， 所 以 建议 你 读 读 这 个 库 的 Python 文档 。 


urlopen 用 来 打开 并 读 取 一 个 从 网 络 获取 的 远程 对 象 。 因 为 它 是 一 个 非常 通用 的 函数 (可 
以 轻松 读 取 HTML 文件 、 图 像 文 件 或 其 他 任何 文件 流 )， 所 以 我 们 将 在 本 书 中 频繁 地 使 
用 它 。 





























1.2 ”BeautifulSoup 简 介 


“美味 的 汤 ， 绿 色 的 浓 汤 ， 

在 热气 腾腾 的 盖 碗 里 装 ! 

谁 不 愿意 尝 一 尝 ， 这 样 的 好 汤 ? 

晚餐 用 的 汤 ， 美 味 的 汤 ! ” 
BeautifulSoup 库 的 名 字 取 自 刘易斯 . 卡 罗 尔 在 《爱丽 丝 梦 游 仙 境 》 里 的 同名 诗歌 。 在 故事 
中 ， 这 首 诗 是 素 甲 鱼 ' 唱 的 。 
就 像 它 在 仙境 中 的 说 法 一 样 ，BeautifulSoup 尝试 化 平淡 为 神奇 。 它 通过 定位 HTML 标签 来 
格式 化 和 组 织 复杂 的 网 页 信息 ， 用 简单 易 用 的 Python 对 象 为 我 们 展现 XML 结构 信息 。 



































注 1: Mock Turtle， 它 本 身 是 一 个 双关 语 ， 指 英国 维多利亚 时 代 的 流行 菜肴 素 甲鱼 汤 ， 它 其 实 不 是 用 甲鱼 而 
是 用 牛肉 做 的 ， 如 同 中 国 的 豆 制品 素 鸡 ， 名 为 素 鸡 ， 其 实 与 鸡 无 关 。 一 一 译 者 注 
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1.2.1 安装 BeautifulSoup 

由 于 BeautifulSoup 库 不 是 Python 标准 库 ， 因 此 需要 单独 安装 。 如 果 你 安装 过 Python 库 ， 
可 以 使 用 你 最 喜爱 的 安装 器 并 略 过 本 小 节 ， 直 接 了 阅读 1.2.2 节 。 

对 于 还 没有 安装 过 Python 库 的 新 手 (或 者 需要 温习 的 读者 ) 来 说 ， 以 下 介绍 的 方法 将 会 用 
于 安装 本 书 中 的 多 个 库 ， 所 以 在 后 面 你 可 能 需要 回顾 本 小 市 。 


在 本 书 中 ， 我 们 将 使 用 BeautifulSoup 4 (也 叫 BS4)。Crummy.com 中 有 BeautifulSoup 4 的 
完整 安装 说 明 。Linux 系统 上 的 基本 安装 方法 是 : 















































$ sudo apt-get instaLL python-bs4 
对 于 macOS 系统 ， 首 先 用 以 下 命令 安装 Python 的 包 管理 器 pip: 
$ sudo easy_instaLL pip 


然后 运行 以 下 命令 来 安装 库 。 





$ pip install beautifulsoup4 


另外 ， 注 意 如 果 你 的 设备 上 同时 安装 了 Python 2.x 和 Python 3.x， 你 需要 用 python3 运行 
Python 3.x: 


$ python3 myScript.py 
安装 包 的 时 候 ， 也 要 使 用 这 条 命令 ， 否 则 包 有 可 能 安装 到 Python 2.x 而 不 是 Python 3.x 里 : 


$ sudo python3 setup.py instalLL 





如 果 用 pip 安装 ， 你 还 可 以 用 pip3 安装 Python 3.x 版 本 的 包 : 


$ pip3 install beautifulsoup4 





在 Windows 系统 上 安装 包 与 在 Linux 和 macOS 上 安装 差不多 。 从 下 载 页 面 下 载 最 新 的 
BeautifulSoup 4 源 代码 ， 解 压 后 进入 文件 ， 然 后 执行 : 














> python setup.py install 


这 样 就 可 以 了 ! BeautifulSoup 将 被 当 作 设备 上 的 一 个 Python 库 。 你 可 以 在 Python 终端 里 
导入 它 测 试 一 下 : 


$ python 
> from bs4 import BeautifulSoup 


如 果 没 有 错误 ， 说 明 导 入 成 功 了 。 





另外 ， 还 有 一 个 Windows 版 pip 的 .exe 格式 安装 器 ， 装 了 之 后 你 就 可 以 轻松 安装 和 管理 
包 了 : 


> pip install beautifulsoup4 





用 虚拟 环境 保存 库 文件 
如 果 你 同时 负责 多 个 Python 项 目 ， 或 者 想 要 轻松 打包 某 个 项 目 及 其 关联 的 麻 文 件 ， 再 
或 者 你 担心 已 安装 的 库 之 间 可 能 有 冲突 ， 那 么 你 可 以 安装 一 个 Python 虚拟 环境 来 分 而 
治之 
当 不 用 虚拟 环境 安装 一 个 Python 麻 的 时 候 ， 你 实际 上 是 全 局 安装 它 。 这 通常 需要 有 管 
理 员 权限 ， 或 者 以 root 身份 安装 ， 这 个 库 文 件 对 设备 上 的 每 个 用 户 和 每 个 项 目 来 说 都 
是 存在 的 。 好 在 创建 虚拟 环境 非常 简单 : 


$ virtualenv scrapingEnv 


这 样 就 创建 了 一 个 叫 作 scrapingEnv 的 新 环境 ， 你 需要 先 激活 它 再 使 用 : 


$ cd scrapingEnv/ 
$ source bin/activate 


激活 环境 之 后 ， 你 会 在 命令 行 提示 符 前 面 看 到 环境 名 称 ， 提 醒 你 当前 处 于 虚拟 环境 中 。 
后 面 你 安装 的 任何 库 和 执行 的 任何 程序 都 在 这 个 环境 下 运行 。 


在 新 建 的 scrapingEnv 环境 里 ， 可 以 安装 并 使 用 BeautifulSoup: 


(scrapingEnv)ryan$ pip install beautifulsoup4 
(scrapingEnv)ryan$ python 

> from bs4 import BeautifulSoup 

> 


当 不 再 使 用 虚拟 环境 中 的 库 时 ， 可 以 通过 deactivate 命令 来 退出 环境 ， 


(scrapingEnv)ryan$ deactivate 

ryan$ python 

> from bs4 import BeautifulSoup 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

ImportError: No module named 'bs4' 


将 项 目 关联 的 所 有 库 单 独 放 在 一 个 虚拟 环境 里 ， 还 有 助 于 轻松 打包 整个 环境 发 送 给 其 
他 人 。 只 要 他 们 机 器 上 安装 的 Python 版 本 和 你 的 相同 ， 你 打包 的 代码 就 可 以 直接 通过 
虚拟 环境 运行 ， 不 需要 再 安装 任何 库 。 

尽管 本 书 的 例子 都 不 要 求 你 使 用 虚拟 环境 但 是 请 记 住 ， 你 可 以 在 任何 时 候 激活 并 使 
用 它 。 
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1.2.2 ”运行 BeautifulSoup 
BeautifulSoup 库 最 常用 的 对 象 恰好 就 是 Beautifulsoup 对 象 。 让 我 们 把 本 章 开 头 的 例子 调 
整 一 下 再 运行 看 看 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://www.pythonscraping.com/pages/pagel.html') 
bs = BeautifulSoup(html.read(), 'html.parser') 
print(bs.h1) 





输出 结果 是 : 


<h1>An Interesting TitLe</h1> 








这 里 仅仅 返回 了 页 面 上 的 第 一 个 hi 标签 实例 。 通 常情 况 下 ， 一 个 页 面 也 只 有 一 个 hi 标签， 
但 是 在 Web 中 这 个 惯例 经 常 被 打破 ， 因 此 你 应 该 意识 到 这 里 仅仅 检索 了 该 标 签 的 第 一 个 实 
例 ， 而 不 一 定 是 你 寻找 的 那个 。 


























和 前 面 网 页 抓 取 的 例子 一 样 ， 你 导入 urlopen 函数 ， 然 后 调用 html.read() 获取 网 页 的 
HTML 内 容 。 除 了 文本 字符 串 ，BeautifulSoup 还 可 以 使 用 urlopen 直接 返回 的 文件 对 象 ， 
而 不 需要 先 调 用 .read() 函数 : 





bs = BeautifulSoup(html, 'html.parser') 





这 样 就 可 以 把 HITML 内 容 传 到 BeautifuLsoup 对 和 象 ， 转 换 成 下 面 的 结构 : 





。 html 一 <html><head>...</head><body>...</body></html> 
一 head 一 <head><title>A Useful Page</title></head> 
一 title 一 <title>A Useful Page</title> 
一 body 一 <body><hl>An Int...</hl><div>Lorem ip...</div></body> 
一 hl 一 <hl>An Interesting Title</h1> 


一 div 一 <div>Lorem Ipsum dolor...</div> 


可 以 看 出 , 我 们 从 网 页 中 提取 的 <h1> 标签 被 府 在 Beautifulsoup 对 象 结构 的 第 二 层 (htnml 一 
body 一 h1)。 但 是 ， 当 我 们 从 对 象 里 提取 hl 标签 的 时 候 ， 可 以 直接 调用 它 

bs.h1 
其 实 ， 下 面 的 所 有 函数 调用 都 可 以 产生 相同 的 结果 : 

bs.html.body.h1 


bs.body.h1 
bs.html.hi 


当 你 创建 一 个 Beautifulsoup 对 象 时 ， 需 要 传人 两 个 参数 : 
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bs = BeautifulSoup(html.read(), 'html.parser') 


第 一 个 参数 是 该 对 象 所 基于 的 HTML 文本 ， 第 二 个 参数 指定 了 你 希望 BeautifulSoup 用 来 
创建 该 对 象 的 解析 器 。 在 大 多 数 情况 下 ， 你 选择 任何 一 个 解析 器 都 差别 不 大 。 


htmL.parser 是 Python 3 中 的 一 个 解析 器 ， 不 需要 单独 安装 。 如 果 不 是 特殊 场景 的 需要 ， 
本 书 中 都 将 使 用 这 个 解析 器 。 


另 一 个 常用 的 解析 器 是 xmL， 可 以 通过 pip 命令 安装 : 

















$ pip3 install LxmL 





BeautifulSoup 使 用 txml 解析 器 时 ， 只 需要 改变 解析 器 参数 : 

bs = BeautifulSoup(html.read(), 'lxml') 
和 html.parser 相 比 ，Lxmt 的 优点 在 于 解析 “杂乱 ”或 者 包含 错误 语法 的 HTML 代码 的 性 
能 更 优 一 些 。 它 可 以 容忍 并 修正 一 些 问题 ， 例 如 未 朵 合 的 标签 、 未 正确 能 套 的 标签 ， 以 及 


缺失 的 头 (head) 标签 或 正文 (body) 标签 。Lxmt 也 比 htmL.parser 更 快 ， 但 是 考虑 到 网 
络 本 身 的 速度 将 总 是 你 最 大 的 瓶颈 ， 在 网 页 抓 取 中 速度 并 不 是 一 个 必 备 的 优势 。 




















txml 的 一 个 缺点 是 它 必 须 单独 安装 ， 并 且 它 依赖 于 第 三 方 的 C 语言 库 。 相 对 于 htnl. 
parser 来 说 ， 这 可 能 会 导致 可 移植 性 和 易 用 性 问题 。 








另外 一 个 常用 的 HTML 解析 器 是 htmt5tib。 和 txml 一 样 ，htmt5lib 也 是 一 个 具有 容错 性 
的 解析 器 ， 它 甚至 可 以 容忍 语法 更 糟糕 的 HTML。 它 也 依赖 于 外 部 依赖 ， 并 且 比 txml 和 
html.parser 都 慢 。 尽 管 如 此 ， 如 果 你 处 理 的 是 一 些 杂 乱 的 或 者 手写 的 HIML 网 站 ， 那 么 
该 解析 器 可 能 是 一 个 不 错 的 选择 。 




















可 以 通过 安装 并 将 htmL5Lib 字符 串 传 递 给 Beautifulsoup 对 象 来 使 用 它 : 


bs = BeautifulSoup(html.read(), 'htmL5Lib ' ) 











希望 这 个 例子 可 以 向 你 展示 BeautifulSoup 库 的 强大 与 简单 。 其 实 ， 任 何 HIML (或 XML ) 
文件 的 任意 节点 信息 都 可 以 被 提取 出 来 ， 只 要 目标 信息 的 旁边 或 附近 有 标签 就 行 。 第 2 章 
将 进一步 探讨 一 些 更 复杂 的 BeautifulSoup 函数 ， 还 会 介绍 正则 表达 式 ， 以 及 如 何 把 正则 表 
达 式 用 于 BeautifulSoup 以 提取 网 站 信息 。 














1.2.3 可靠 的 网 络 连 接 以 及 异常 的 处 理 

Web 是 十 分 复杂 的 。 网 页 数据 格式 不 友好 、 网 站 服务 器 死机 、 目 标 数据 的 标签 找 不 到 ， 都 
是 很 麻烦 的 事情 。 网 页 抓 取 最 痛苦 的 遭遇 之 一 ， 就 是 仆 虫 运行 的 时 候 你 洗 洗 睡 了， 梦想 着 
明天 一 早 数据 就 都 会 抓 取 好 放 在 数据 库 里 ， 结 果 第 二 天 醒 来 ， 你 看 到 的 却 是 一 个 因 某 种 数 
































初 见 网 络 怎 虫 | 9 


据 格式 异常 导致 运行 错误 的 仆 虫 ， 在 前 一 天 当 你 不 再 采 着 屏幕 去 睡觉 之 后 ， 没 过 一 会 儿 
仆 虫 就 不 再 运行 了 。 那 个 时 候 ， 你 可 能 想 踢 发 明 网 站 (以 及 那些 奇 郁 的 网 络 数据 格式 ) 的 
人 ,但 是 你 真正 应 该 斥责 的 人 是 你 自己 ,为 什么 一 开始 不 估计 可 能 会 出 现 的 异常 ! 











让 我 们 看 看 爬虫 import 语句 后 面 的 第 一 行 代 码 ， 看 看 如 何 处 理 可 能 出 现 的 异常 : 








html = urlopen('http://www.pythonscraping.com/pages/pagel.html') 
这 行 代码 主要 会 发 生 两 种 异常 : 


。 网 页 在 服务 器 上 不 存在 (或 者 获取 页 面 的 时 候 出 现 错误 ) 
。 服务 器 不 存在 





发 生 第 一 种 异常 时 , 程序 会 返回 HTTP 错误 。HTTP 错误 可 能 是 “404 Page Not Found”“500 
Internal Server Error” 等 。 对 于 所 有 类 似 情形 ，urlopen 函数 都 会 抛 出 HTTPError 异常 。 我 
们 可 以 用 下 面 的 方式 处 理 这 种 异常 : 





























from urllib.request import urlopen 
from urllib.error import HTTPError 


try: 
html = urlopen('http://www.pythonscraping.com/pages/pagel.html') 
except HTTPError as e: 








print(e) 
# 返回 空 值 ， 中 断 程序 ， 或 者 执行 另 一 个 方案 
else: 











# 程序 继续 。 注 意 : 如 果 你 已 经 在 上 面 异 常 捕捉 那 一 段 代码 里 返回 或 中 断 (break) ， 
# 那么 就 不 需要 使 用 else 语 句 了 ， 这 段 代码 也 不 会 执行 




















如 果 程 序 返回 HITP 错误 代码 ， 程 序 就 会 显示 错误 内 容 ， 不 再 执行 else 语句 后 面 的 代码 。 


如 果 服 务 器 不 存在 (就 是 说 链接 http:/www.pythonscraping.com 打 不 开 ， 或 者 是 URL 链接 
写 错 了 )，urlopen 会 抛 出 一 个 URLError 异常 。 这 就 意味 着 获取 不 到 服务 器 ， 并 且 由 于 远程 
服务 器 负责 返回 HTTP 状态 代码 ， 所 以 不 能 抛 出 HTTPError 异常 ， 而 且 还 应 该 捕获 到 更 严 
重 的 URLError 异常 。 你 可 以 增加 以 下 检查 代码 : 





from urllib.request import urlopen 
from urllib.error import HTTPError 
from urllib.error import URLError 


try: 
html = urlopen('https://pythonscrapingthisurldoesnotexist.com') 
except HTTPError as e: 

print(e) 
except URLError as e: 

print('The server could not be found!') 
else: 

print('It Worked!') 








当然 ， 即 使 从 服务 器 成 功 获取 网 页 ， 如 果 网 页 上 的 内 容 并 非 完全 是 我 们 期 望 的 那样 ， 仍 然 
可 能 会 出 现 异常 。 每 当 你 调用 Beautifulsoup 对 象 里 的 一 个 标签 时 ， 增 加 一 个 检查 条 件 以 
保证 标签 确实 存在 是 很 聪明 的 做 法 。 如 果 你 想 要 调用 的 标签 不 存在 ，BeautifulSoup 就 会 返 
回 None 对 象 。 不 过 ， 如 果 再 调用 这 个 None 对 象 下 面 的 子 标签 ， 就 会 发 生 AttributeError 
错误 。 












































下 面 这 行 代码 (nonExistentTag 是 虚拟 的 标签 ，BeautifuLSoup 对 象 里 实际 没有 ) 











print(bs.nonExistentTag) 


置 


会 返回 一 个 None 对 象 。 处 理 和 检查 这 个 对 象 是 十 分 必要 的 。 如 果 你 不 检查 ， 直 接 调用 这 个 
None 对 象 的 子 标签 ， 就 会 有 麻烦 ， 如 下 所 示 。 





print(bs.nonExistentTag.someTag) 
这 时 就 会 返回 一 个 异常 : 
AttributeError: 'NoneType' object has no attribute 'someTag' 


那么 怎么 才能 避免 这 两 种 情形 的 异常 呢 ? 最 简单 的 方式 就 是 对 两 种 情形 进行 检查 : 





try: 
badContent = bs.nonExistingTag.anotherTag 
except AttributeError as e: 
print('Tag was not found') 
else: 
if badContent == None: 
print ('Tag was not found') 
else: 
print(badContent) 


初 看 这 些 检查 与 错误 处 理 的 代码 会 觉得 有 点 儿 累 更 ， 但 是 我 们 可 以 重新 简单 组 织 一 下 代 


码 ， 让 它 变 得 不 那么 难 写 (更 重要 的 是 ， 不 那么 难 读 )。 例 如 ， 下 面 的 代码 是 上 面 候 虫 的 
另 一 种 写法 : 









































from UrLLib .request import urlopen 
from urllib.error import HTTPError 
from bs4 import BeautifulSoup 


def getTitle(url): 

try: 
html = urlopen(url) 

except HTTPError as e: 
return None 

try: 
bs = BeautifulSoup(html.read(), 'html.parser') 
title = bs.body.h1 

except AttributeError as e: 
return None 
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return title 


title = getTLtLe('http://www.pythonscraping.com/pages/page1.htmL') 
if title == None: 

print('Title could not be found') 
else: 

print(title) 








在 这 个 例子 中 ， 我 们 创建 了 一 个 getTitle 国 数 ， 它 可 以 返回 网 页 的 标题 ， 如 果 获 取 网 页 
的 时 候 遇 到 问题 就 返回 一 个 None 对 象 。 在 getTitte 函数 里 面 ， 我 们 像 前 面 那样 检查 了 
HTTPError， 还 检查 了 由 于 URL 输入 错误 引起 的 URLError， 然 后 把 两 行 BeautifulSoup 代 
码 封装 在 一 个 try 语句 里 面 。 这 两 行 中 的 任何 一 行 有 问题 ， 都 可 能 抛 出 AttributeError 
(如 果 服 务 器 不 存在 ，htmt 就 是 一 个 None 对 象 ，html.read() 就 会 抛 出 AttributeError ) 。 
其 实 ， 我 们 可 以 在 try 语句 里 面 放 任意 多 行 代 码 ， 或 者 调用 一 个 在 任意 位 置 都 可 以 抛 出 
AttributeError 的 国 数 。 















































在 写 候 虫 的 时 候 ， 思 考 代码 的 总 体格 局 ， 让 代码 既 可 以 捕捉 异常 又 容易 阅读 ， 这 是 很 重要 
的 。 如 果 你 还 希望 重用 大 量 代 码 ， 那 么 拥有 像 getsiteHTML 和 getTitle 这 样 的 通用 函数 
(具有 周密 的 异常 处 理 功能 ) 会 让 快速 、 稳 定 地 抓 取 网 页 变 得 简单 易 行 。 


























第 2 章 


复杂 HTML 解 析 





米 开 朗 基 罗 被 问 及 如 何 完成 《大 卫 》 这 样 匠 心 独 具 的 雕刻 作品 时 ， 他 有 一 段 著名 的 回 
:“ 很 简单 ， 你 只 要 用 锤子 把 石头 上 不 像 大 卫 的 地 方 襄 掉 就 行 了 。” 
虽然 网 页 抓 取 和 大 理 石雕 刻 大 相 径 庭 ， 但 是 当 我 们 从 复杂 的 网 页 中 寻 疯 信息 时 ， 也 必须 持 


有 类 似 的 态度 。 有 很 多 技巧 可 以 帮 我 们 “ 裔 掉 ” 网 页 上 那些 不 需要 的 信息 ， 直 到 找到 目标 
信息 。 这 一 章 将 介绍 如 何 解析 复杂 的 HTML 页 面 ， 从 中 提取 出 所 需 的 信息 。 


2.1 不 是 一 直 都 要 用 锤子 

面 对 页 面 解析 难题 时 ， 很 容易 不 假 思索 地 直接 写 几 行 语 句 来 提取 信息 。 但 是 ， 像 这 样 鲁 莽 
放纵 地 使 用 技术 ， 只 会 让 程序 变 得 难以 调试 或 脆弱 不 堪 ， 甚 至 二 者 兼 具 。 在 开始 解析 网 页 
之 前 ， 让 我 们 看 一 些 可 以 避免 解析 复杂 HIML 页 面 的 方式 。 








怠 由 E 









































假如 你 已 经 确定 了 目标 内 容 ， 可 能 是 一 个 名 字 、 一 组 统计 数据 或 者 一 段 文字 。 你 的 目标 内 
容 可 能 隐藏 在 一 个 HTML“ 烂 泥 堆 ”的 第 20 层 标签 里 ， 带 有 许多 没 用 的 标签 或 HTML 属 
性 。 假 如 你 不 经 考虑 地 直接 写 出 下 面 这 样 一 行 代码 来 提取 内 容 : 























bs.find_all('table')[4].find all('tr')[2].find('td').find_all('div')[1].find('a') 


虽然 也 可 以 达到 目标 ,但 这 样 看 起 来 并 不 是 很 好 。 除 了 代码 欠缺 美感 之 外 ， 还 有 一 个 问题 
是 ， 即 便 网 站 管理 员 对 网 站 稍 作 修改 ， 这 行 代 码 也 会 失效 ， 甚 至 可 能 会 毁 掉 整个 网 络 让 
虫 。 那 么 如 果 网 站 开发 人 员 决 定 增加 一 张 表格 或 者 增加 一 列 数据 ， 你 应 该 怎么 做 呢 ? 如 有 果 
网 站 开发 人 员 在 页 面 的 顶部 增加 一 个 组 件 (一 些 div 标签 )， 你 应 该 怎么 做 呢 ? 以 上 的 代 











码 是 不 安全 的 ， 它 依赖 于 网 站 的 结构 永远 不 变 。 
那么 你 可 以 怎么 做 呢 ? 


。 寻找 “打印 此 页 ”的 链接 ， 或 者 看 看 网 站 有 没有 HTML 样式 更 友好 的 移动 版 (把 自己 
的 请 求 头 设置 成 处 于 移动 设备 的 状态 , 然后 接收 网 站 移动 版 , 更 多 内 容 在 第 14 章 介绍 ) 。 
。 寻找 隐藏 在 JavaScript 文件 里 的 信息 。 要 实现 这 一 点 ， 你 可 能 需要 查看 网 页 加 载 的 
JavaScript 文件 。 我 曾经 在 把 一 个 网 站 上 的 街道 地 址 (以 经 度 和 纬度 呈现 的 ) 整理 成 格 
式 整 洁 的 数组 时 ， 查 看 过 内 艇 谷歌 地 图 的 JavaScript 文件 ， 里 面 有 每 个 地 址 的 标记 点 。 
虽然 网 页 标题 经 常会 用 到 ， 但 是 这 个 信息 也 许可 以 从 网 页 的 URL 链接 里 获取 。 
如 果 你 要 找 的 信息 只 存在 于 一 个 网 站 上 ， 别 处 没有 ， 那 你 确实 是 运气 不 佳 。 如 果 不 只 限 
于 这 个 网 站 ， 那 么 你 可 以 找 找 其 他 数据 源 。 有 没有 其 他 网 站 也 显示 了 同样 的 数据 ?网 站 
上 显示 的 数据 是 不 是 从 其 他 网 站 上 抓 取 后 攒 出 来 的 ? 
尤其 是 在 面 对 埋藏 很 深 或 格式 不 友好 的 数据 时 ， 千 万 不 要 不 经 思考 就 写 代 码 ， 一 定 要 三 思 
而 后 行 。 
如 果 你 确定 自己 不 能 另辟蹊径 ， 那 么 本 章 其 余 的 内 容 就 是 为 你 准备 的 。 本 章 接 下 来 会 介绍 
基于 位 置 、 上 下 文 、 属 性 和 内 容 选 择 标签 的 标准 方式 和 创新 方式 。 这 里 展示 的 技巧 如 果 运 
用 得 当 ， 将 会 助 你 在 编写 更 稳定 可 靠 的 网 络 仆 虫 的 路 上 走 得 更 远 。 










































































































































































2.2 ”再 端 一 碗 BeautifulSoup 

在 第 1 章 里 ， 我 们 快速 演示 了 BeautifulSoup 的 安装 与 运行 过 程 ， 同 时 也 实现 了 每 次 选择 一 
个 对 象 的 解析 方法 。 这 一 节 将 介绍 通过 属性 查找 标签 的 方法 ， 标 签 组 的 使 用 ， 以 及 标签 角 
析 树 的 导航 过 程 。 











基本 上 ， 你 遇 到 的 每 个 网 站 都 有 层 且 样式 表 (cascading style sheet，CSS)。 虽 然 你 可 能 会 
认为 ， 专 门 为 了 让 训 览 右 和 人 类 可 以 理解 网 站 内 容 而 设计 一 个 展现 样式 的 层 ， 是 一 件 思春 
的 事 ， 但 是 CSS 的 发 明 却 是 网 络 候 虫 的 福音 。CSS 可 以 让 HTML 元 素 呈 现 出 差异 化 ， 使 
那些 具有 完全 相同 修饰 的 元 素 呈 现 出 不 同 的 样式 。 比 如 ， 有 些 标 签 看 起 来 是 这 样 : 


<span class="green"></span> 


























而 另 一 些 标签 看 起 来 是 这 样 : 


<span class="red"></span> 





网 络 候 虫 可 以 通过 class 属性 的 值 ， 轻 松 地 区 分 出 两 种 不 同 的 标签 。 例 如 ， 它 们 可 以 用 
BeautifulSoup 抓 取 网 页 上 所 有 的 红色 文字 ， 而 绿色 文字 一 个 都 不 抓 。 因 为 CSS 通过 属性 准 
确 地 呈现 网 站 的 样式 ， 所 以 你 大 可 放心 ， 大 多 数 现代 网 站 上 的 class 和 id 属性 资源 都 非常 
丰富 。 
































下 面 让 我 们 创建 一 个 网 络 爬 虫 来 抓 取 http://www.pythonscraping.com/pages/warandpeace.html 
这 个 网 页 oo 


在 这 个 页 面 里 ， 小 说 人 物 的 对 话 内 容 都 是 红色 的 ， 人 物 名 称 都 是 绿色 的 。 你 可 以 看 到 网 页 
源 代码 里 的 span 标签 引用 了 对 应 的 CSS 属性， 如 下 所 示 : 





<span class="red">Heavens! what a virulent attack!</span> replied 
<span class="green">the prince</span>, not in the least disconcerted 
by this reception. 





我 们 可 以 使 用 和 第 1 章 类 似 的 程序 抓 取 整 个 页 面 ， 然 后 创建 一 个 BeautifulSoup 对 象 : 


from UrLLib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://www.pythonscraping.com/pages/pagel.html') 
bs = BeautifulSoup(html.read(), 'html.parser') 


通过 BeautifulSoup 对 象 ， 我 们 可 以 用 find_all 函数 提取 只 包含 在 <span class="green"> 
</span> 标签 里 的 文字 ， 这 样 就 会 得 到 一 个 人 物 名 称 的 Python 列表 (find_all 是 一 个 非常 
灵活 的 函数 ， 后 面 会 经 常用 到 它 ) : 





nameList = bs.findAll('span', {'class':'green'}) 
for name in nameList: 
print(name.get_ text()) 





代码 执行 以 后 就 会 按照 《战争 与 和 平 》 中 的 人 物 出 场 顺 序 显示 所 有 的 人 名 。 这 是 怎么 实 
现 的 呢 ? 之 前 ， 我 们 调用 bs.tagName 只 能 获取 页 面 中 指定 的 第 一 个 标签 。 现 在 ， 调 用 
bs.find_all(tagName， tagAttributes) 可 以 获取 页 面 中 所 有 指定 的 标签 ， 不 再 只 是 第 一 
个 了 。 


获取 人 名 列表 之 后 ， 程 序 遍历 列表 中 所 有 的 名 字 ， 然 后 打印 name.get_text()， 就 可 以 把 标 
签 中 的 内 容 分 开 显 示 了 。 





什么 时 候 使 用 get_text() ? 什么 时 候 应 该 保留 标签 ? 

.get_text() 会 清除 你 正在 处 理 的 HTML 文档 中 的 所 有 标签 ， 然 后 返回 一 个 
只 包含 文字 的 Unicode 字符 串 。 假 如 你 正在 处 理 一 个 包含 许多 超 链接 、 段 落 
和 其 他 标签 的 大 段 文 本 ， 那 么 .get_text() 会 把 这 些 超 链接 、 段 落 和 标签 都 
清除 掉 ， 只 剩 下 一 串 不 带 标 签 的 文字 。 

用 Beautifulsoup 对 象 查 找 你 想 要 的 信息 ， 比 直接 在 HIML 文本 里 查找 信息 
要 简单 得 多 。 通 常 在 你 准备 打印 、 存 储 和 操作 最 终 数 据 时 ， 应 该 最 后 才 使 
用 .get_text()。 一 般 情 况 下 ， 你 应 该 尽 可 能 地 保留 HTML 文档 的 标签 结构 。 
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2.2.1 BeautifulSoup 的 find() 和 find_all() 


BeautifulSoup 里 的 find() 和 find_all() 可 能 是 你 最 常用 的 两 个 函数 。 借 助 它们 ， 你 可 以 
通过 标签 的 不 同属 性 轻松 地 过 着 HTML 页 面 ， 查 找 需要 的 标签 组 或 单个 标签 。 

















这 两 个 函数 非常 相似 ，BeautifulSoup 文档 里 两 者 的 定义 就 是 这 样 : 


find_all(tag, attributes, recursive, text, limit, keywords) 
find(tag, attributes, recursive, text, keywords) 





很 可 能 你 会 发 现 ， 自 己 在 95% 的 时 间 里 都 只 需要 使 用 前 两 个 参数 : tag 和 attributes。 但 
是 ， 我 们 还 是 应 该 仔细 地 看 看 所 有 的 参数 。 


标签 参数 tag 前 面 已 经 介绍 过 一 一 你 可 以 传递 一 个 标签 的 名 称 或 多 个 标签 名 称 组 成 的 
Python 列表 做 标签 参数 。 例 如 ， 下 面 的 代码 将 返回 一 个 包含 HIML 文档 中 所 有 标题 标签 
的 列表 : 




















.find_all(['h1','h2','h3','h4','h5','h6']) 





属性 参数 attributes 用 一 个 Python 字典 封装 一 个 标签 的 若干 属性 和 对 应 的 属性 值 。 例 如 ， 
下 面 这 个 函数 会 返回 HTML 文档 里 红色 与 绿色 两 种 颜色 的 span 标签 : 























.find_all('span', {'class':{'green', 'red'}}) 


递归 参数 recursive 是 一 个 布尔 变量 。 你 想 抓 取 HTML 文档 标签 结构 里 多 少 层 的 信息 ? 如 
果 recursive 设置 为 True，find_all 就 会 根据 你 的 要 求 去 查找 标签 参数 的 所 有 子 标签 ， 以 
及 子 标签 的 子 标签 。 如 果 recursive 设置 为 False，find_all 就 只 查找 文档 的 一 级 标签 。 
find_all 默认 是 支持 递归 查找 的 (recursive 默认 值 是 True) ; 一般 情况 下 这 个 参数 不 需 
要 设置 ， 除非 你 真正 了 解 自 己 需 要 哪些 信息 ， 而 且 抓 取 速 度 非常 重要 ， 那 时 你 可 以 设置 递 
归 参 数 。 














文本 参数 text 有 点 不 同 ， 它 是 用 标签 的 文本 内 容 去 匹配 ， 而 不 是 用 标签 的 属性 。 假 如 我 们 
想 查找 前 面 网 页 中 包含 “the prince” 内 容 的 标签 数量 ， 可 以 把 之 前 的 find_all 方法 换 成 下 
面 的 代码 : 














nameList = bs.find all(text='the prince') 
print(len(nameList)) 





输出 结果 为 ww 


范围 限制 参数 Limit 显然 只 用 于 find_all 方法 。fiind 其 实 等 价 于 Limit 等 于 1 时 的 find_all。 




















注 1: 如 果 你 想 获得 文档 里 的 一 组 h<some_level> 标签 ， 可 以 用 更 简洁 的 方法 写 代码 来 完成 。 我 们 将 在 2.3 
市 介绍 这 类 问题 的 其 他 处 理 方法 。 
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如 果 你 想 获 取 网 页 中 的 前 x 项 结果 ， 就 可 以 设置 它 。 但 是 要 注意 ,设置 这 个 参数 之 后 ， 获 
得 的 前 儿 项 结果 是 按照 网 页 上 的 顺序 排序 的 ， 未 必 是 你 想 要 的 那 前 儿 项 。 
还 有 一 个 关键 词 参数 keyword， 可 以 让 你 选择 那些 具有 指定 属性 的 标签 。 例 如 : 


title = bs.find all(id='title', class_='text') 


上 述 代码 返回 第 一 个 在 class_ 属性 中 包含 单词 text 并 且 在 id 属性 中 包含 title 的 标签 。 
需要 注意 的 是 ， 通 常情 况 下 ， 页 面 中 每 个 id 的 属性 值 只 能 被 使 用 一 次 。 因 此 在 实际 情况 
中 ， 上 面 的 代码 可 能 并 不 实用 ， 而 以 下 代码 可 以 达到 同样 的 效果 : 


















































A 





title = bs.find(id='title') 





关键 词 参 数 和 “类 ”的 注意 事项 

虽然 关键 词 参数 keyword 在 一 些 场景 中 很 有 用 ， 但 是 ， 它 实际 上 是 一 个 宛 余 的 
BeautifulSoup 功能 。 任 何 用 关键 词 参数 能 够 完成 的 任务 ， 同 样 可 以 用 本 章 后 面 将 介绍 
的 技术 解决 (请 参见 2.3 节 和 2.6 节 ) 。 
例如 ， 下 面 两 行 代码 是 完全 一 样 的 : 

bs.find_all(id='text') 

bs.find all('', {'id':'text'}) 
另外 ， 用 keyword 偶尔 会 出 现 问 题 ， 尤 其 是 在 用 class 属性 查找 标签 的 时 候 ， 因 为 
class 是 Python 中 受 保 护 的 关键 字 。 也 就 是 说 ，clLass 是 Python 语言 的 保留 字 ， 在 
Python 程序 里 是 不 能 当 作 变 量 或 参数 名 使 用 的 (和 前 面 介绍 的 BeautifuLSoup.find_ 
all() 里 的 keyword 无 关 )“。 假 如 你 运行 下 面 的 代码 ，Python 就 会 因为 你 误 用 class 
保留 字 而 产生 一 个 语法 错误 : 


bs.find_all(class='green') 


不 过 ， 你 可 以 用 BeautifulSoup 提供 的 有 点 儿 腑 肿 的 方案 ,在 class 后 面 增加 一 个 下 
划 线 : 


bs.find_all(class ='green') 
另外 ， 你 也 可 以 用 属性 参数 把 class 用 引号 包 起 来 : 


bs.find_all('', {'class':'green'}) 




















看 到 这 里 ， 你 可 能 会 拉 心 自问 :“ 现 在 我 是 不 是 已 经 知道 如 何 用 标签 属性 获取 一 组 标签 
了 一 一 用 字典 把 属性 传 到 函数 里 就 行 了 ? ” 























注 2: Python 语言 参考 里 提供 了 完整 的 受 保护 关键 字 列 表 。 
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回忆 一 下 前 面 的 内 容 ， 通 过 标签 参数 tag 把 标签 列表 传 到 .find_all() 里 获取 一 组 标签 ， 
其 实 就 是 一 个 “或 ”关系 的 过 滤器 ( 即 选择 所 有 带 标 签 1、 标 签 2 或 标签 3…… 的 标签 ) 。 
如 果 你 的 标签 列表 很 长 ， 就 需要 花 很 长 时 间 才 能 写 完 。 而 关键 词 参数 keyword 可 以 让 你 增 
加 一 个 “与 ”关系 的 过 滤器 来 简化 工作 。 















































2.2.2 ”其 他 BeautifulSoup 对 和 象 
看 到 这 里 ， 你 已 经 见 过 BeautifulSoup 库 里 的 两 种 对 象 了 。 








BeautifuLSoup 对 象 
前 面 代 码 示例 中 的 bs。 


标签 Tag 对 象 
BeautifuLSoup 对 象 通过 find 和 find_all, 或 者 直接 调用 子 标签 获取 的 一 列 对 象 或 单个 
对 象 ， 就 像 : 


bs.div.h1 




















但 是 ， 这 个 库 还 有 另外 两 种 对 象 ， 虽 然 不 常用 ， 却 应 该 了 解 一 下 


NavigableString 对 象 
用 来 表示 标签 里 的 文字 ， 而 不 是 标签 本 身 (有 些 函 数 可 以 操作 和 生成 Navigablestring 
对 象 ， 而 不 是 标签 对 象 )。 











Comment 对 和 象 
用 来 查找 HTML 文档 的 注释 标签 ，<!-- 像 这 样 -->。 


这 4 个 对 象 是 你 用 BeautifulSoup 库 时 会 遇 到 的 所 有 对 象 (写作 本 书 的 时 候 )。 


2.2.3 导航 树 

find_all 函数 通过 标签 的 名 称 和 属性 来 查找 标签 。 但 是 如 果 你 需要 通过 标签 在 文档 中 的 位 
置 来 查找 标签 ， 该 怎么 办 ? 这 就 是 导航 树 (navigating trees) 的 作用 。 在 第 1 章 里 ， 我 们 看 

过 用 单一 方向 进行 BeautifulSoup 标签 树 导 航 : 




















bs.tag.subTag.anotherSubTag 








现在 我 们 用 虚拟 的 在 线 购物 网 站 http:/www.pythonscraping.com/pages/page3.html 作为 要 抓 
取 的 示例 网 页 ， 演示 HTML 导航 树 的 纵向 和 横向 导航 (如 图 2-1 所 示 )。 














纶 和 Totally Normal Gifts 


Here is a collection of totally normal, totally reasonable gifts that your friends are sure to love! Our collection is hand-curate 


We haven't figured out how to make online shopping carts yet but you can send us a check to: 

123 Main St 

Abuja, Nigeria 

We will then send your totally amazing gift, pronto! Please include an extra $5.00 for gift wrapping. 


Item Title Description Cost Image 


Vegetable This vegetable basket is the perfect gift for your 





Basket health conscious (or overweight) friends! Now $15.00 
with super-colorful bell peppers! 
3 Hand-painted by trained monkeys, these 
Russian 2 让 
. exquisite dolls are priceless! And by "priceless, 
Nesting ; 和 i $10,000.52 
Dolls we mean "extremely expensive"! 8 entire dolls 9 
Per set! Octuple the presents! 3 
Fish If something seems fishy about this painting, its 
3 because its a fish! Also hand-painted by trained $10,005.00 
Painting | 
monkeys! 本 
Dead This is an ex-parrot! Or maybe he’'s only resting? $0.50 水 二 
Parrot Ps Eg 2 











图 2-1: http://www.pythonscraping.com/pages/page3.html 截图 
这 个 HTML 页 面 可 以 映射 成 一 棵 树 〈 为 了 简洁 ， 省 略 了 一 些 标签 )， 如 下 所 示 。 


。 HTML 
一 body 
一 div.wrapper 
— hi 
一 div.content 
一 table#giftList 
—= tr 
一 th 
一 th 
一 th 
一 th 
一 tr.gift#gift1 
一 td 
一 td 
— span.excitingNote 
一 td 
一 td 
一 img 
re 其 他 表格 行 省 略 了 ……: 


一 div.footer 





复杂 HTML 人 解析 | 


19 


在 后 面 几 节 内 容 里 ， 我 们 仍然 以 这 个 HTML 标签 结构 为 例 。 


1. 处 理子 标签 和 其 他 后 代 标 签 

在 计算 机 科学 和 一 些 数 学 领域 中 ， 你 经 常会 听 到 “ 虐 子 ”事件 (比喻 对 一 些 子 事件 的 处 
时 方式 ) : 移动 它们 ， 储 存 它们 ， 删 除 它 们 ， 甚 至 杀 死 它们 。 值 得 庆幸 的 是 ， 这 里 只 选 
位 它 们 。 

















i 





or 














和 许多 其 他 库 一 样 ， 在 BeautifulSoup 库 里 ， 孩 子 (child) 和 后 代 (descendant) 有 显著 的 
不 同 : 和 人 类 的 家 谱 一 样 ， 子 标签 就 是 父 标 签 的 下 一 级 ， 而 后 代 标 签 是 指 父 标 签 下 面 所 有 
级 别 的 标签 。 例 如 ，tr 标签 是 table 标签 的 子 标签 ， 而 tr、th、td、img 和 span 标签 都 是 
table 标签 的 后 代 标 签 (我 们 的 示例 页 面 中 就 是 如 此 )。 所 有 的 子 标签 都 是 后 代 标签 ， 但 不 
是 所 有 的 后 代 标签 都 是 子 标 签 。 





























一 般 情况 下 ，BeautifulSoup 函数 总 是 处 理 当 前 标签 的 后 代 标 签 。 例 如 ，bs.body.h1 选择 了 
body 标签 后 代 里 的 第 一 个 hi 标签， 不 会 去 找 body 外 面 的 标签 。 

















类 似 地 ，bs.div.find_all("img") 会 找 出 文档 中 的 第 一 个 div 标签 ， 然 后 获取 这 个 div 后 
代 里 所 有 img 标签 的 列表 。 


如 果 你 只 想 找 出 子 标签 ， 可 以 用 .children 标签 : 











from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://www.pythonscraping.com/pages/page3.html') 
bs = BeautifulSoup(html, 'html.parser') 


for child in bs.find('table',{'id':'giftList'}).children: 
print(child) 


这 段 代 码 会 打印 giftList 表格 中 所 有 产品 的 数据 行 ， 包括 最 开始 的 列 名 行 。 如 果 你 用 
descendants() 函数 而 不 是 children() 函数 ， 那 么 就 会 打印 出 二 十 几 个 标签 ， 包 括 img 标 
签 、span 标签 ， 以 及 每 个 td 标签。 掌握 子 标签 与 后 代 标签 的 差别 十 分 重要 ! 


2. 处 理 兄 弟 标 签 
BeautifulSoup 的 next_siblings() 函数 使 得 从 表格 中 收集 数据 非常 简单 ， 尤 其 是 带 标 题 行 
的 表格 : 























from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://www.pythonscraping.com/pages/page3.html') 
bs = BeautifulSoup(html, 'html.parser') 


for sibling in bs.find('table', {'id':'giftList'}).tr.next_siblings: 
print(sibling) 
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这 段 代码 会 打印 产品 表格 里 所 有 行 的 产品 ， 第 一 行 表格 标题 除外 。 为 什么 标题 行 被 跳 过 了 
呢 ? 对 象 不 能 是 自己 的 兄弟 标签 。 任 何 时 候 你 获取 一 个 标签 的 兄弟 标签 ， 都 不 会 包含 这 个 
标签 本 身 。 正 如 函数 名 本 身 揭示 的 ， 这 个 函数 只 调用 后 面 的 兄弟 标签 。 例如 ， 如 果 我 们 选 
择 一 组 标签 中 位 于 中 间 位 置 的 一 个 标签 ， 然 后 调用 next_siblings() 函数 ， 那 么 就 只 会 返 
回 在 它 后 面 的 兄弟 标签 。 因 此 ， 选 择 标 题 行 ， 然 后 调用 next_siblings， 就 可 以 选择 表格 
中 除了 标题 行 5 以 外 的 所 有 行 。 

















让 标签 的 选择 更 具体 

如 果 我 们 选择 bs.table.tr 或 直接 用 bs.tr 来 获取 表格 中 的 第 一 行 ， 上 面 的 

代码 也 可 以 获得 正确 的 结果 。 但 是 ， 我 还 是 写 了 一 行 更 长 、 更 完整 的 代码 : 
bs.find('table',{'id':'giftList'}).tr 


即使 页 面 上 只 有 一 个 表格 (或 其 他 目标 标签 )， a a 节 。 
另外 ， 页 面 布 局 是 不 断 变化 的 。 一 个 标签 这 次 是 在 表格 中 第 一 行 的 位 置 ， 没 
准 儿 哪 天 就 在 第 二 行 或 第 三 行 了 。 如 果 想 让 你 的 腿 虫 更 稳定 ， II 
签 的 选择 更 加 具体 。 如 果 有 属性 ， 就 利用 标签 的 属性 。 















































和 next_siblings 一 样 ， 如 果 你 很 容易 找到 一 组 兄弟 标签 中 的 最 后 一 个 标签 ， 那 么 
previous_siblings 国 数 也 会 很 有 用 。 








当然 ， 还 有 next_sibling 和 previous_sibling 图 数 ， 它 们 的 作用 跟 next_siblings 和 
previous_siblings 类 似 ， 只 是 它们 返回 的 是 单个 标签 ， 而 不 是 一 组 标签 。 


3. 处 理 父 标签 

在 抓 取 网 页 的 时 候 ， 查 找 父 标签 的 需求 比 查 找 子 标签 和 兄弟 标签 要 少 很 多 。 通 常情 ; 
下 ， 如 果 以 抓 取 网 页 内 容 为 目的 来 观察 HTML 页 面 ， 我 们 都 是 从 最 上 层 标签 开始 的 ， ， 
后 思考 如 何 定位 我 们 想 要 的 数据 块 所 在 的 位 置 。 但 是 ， 偶 尔 在 特殊 情况 下 你 也 会 用 到 
BeautifulSoup 的 父 标 签 查找 函数 parent 和 parents。 例 如 : 











from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://www.pythonscraping.com/pages/page3.html') 
bs = BeautifulSoup(html, 'html.parser') 
print(bs.find('img', 
{'src':'../img/gifts/img1.jpg'}) 
.parent.previous_sibling.get text()) 


这 段 代码 会 打印 ./img/gifts/img1.jpg 这 个 图 片 所 对 应 商品 的 价格 (这 个 示例 中 价格 是 $15.00)。 

















这 是 如 何 实现 的 呢 ? 下 面 是 我 们 正在 处 理 的 HTML 页 面 的 部 分 结构 ， 其 中 用 数字 表示 了 
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一 td 
— tde 
一 "$15.00" @ 
— tde 
一 <img src="../img/gifts/img1i.jpg"> © 





首先 选择 图 片 标签 src="../img/gifts/img1.jpg"。 

选择 图 片 标签 的 父 标 签 (在 示例 中 是 td 标签 )。 

选择 td 标签 的 前 一 个 兄弟 标签 previous_sibling (在 示例 中 是 包含 美元 价格 的 td 标签 )。 
选择 标签 中 的 文字 ,， “$15.00”。 


2.3 正则 表达 式 


计算 机 科学 领域 有 个 笑话 :“ 如 果 你 有 一 个 问题 打算 用 正则 表达 式 来 解决 ， 那 么 就 是 两 个 
问题 了 。 























© OO 


不 幸 的 是 ， 正 则 表达 式 (通常 简写 regex) 经 常 被 嘲笑 是 一 堆 随机 符号 混杂 在 一 起 ， 看 起 
来 写 无 意义 。 这 种 印象 让 人 对 其 避 而 远 之 ， 然 后 费 尽心 思 写 一 堆 复 杂 的 查找 和 过 滤 函 数 ， 
其 实 他 们 真正 需要 的 就 是 一 行 正则 表达 式 。 



































其 实 正 则 表达 式 上 手 一 点 儿 也 不 难 ， 而 且 运行 很 快 ， 通 过 一 些 简单 的 例子 就 可 以 轻松 地 


二 








之 所 以 叫 正则 表达 式 ， 是 因为 它们 可 以 识别 正则 字符 串 (regular string) ; 也 就 是 说 ， 它 们 
可 以 这 么 定义 :“ 如 果 你 给 我 的 字符 串 符 合 规则 ， 我 就 返回 它 "”， 或 者 是 “如 果 字 符 串 不 符 
合 规则 ， 我 就 忽略 它 "”。 这 在 快速 浏览 大 文档 ， 以 查找 像 电 话 号 码 和 邮箱 地 址 之 类 的 字符 
串 时 ， 是 非常 方便 的 。 


注意 这 里 我 用 了 一 个 词组 正则 字符 串 。 什 么 是 正则 字符 串 ? 其 实 就 是 任意 可 以 用 一 系列 线 
性 规则 构成 的 字符 串 *， 就 像 : 





3 






































(1) 字母 “a” 至 少 出 现 一 次 ， 
(2) 后 面 跟着 字母 “b”， 重 复 5 次 ， 
(3) 后 面 再 眼 字 母 “c”， 重 复 任意 偶数 次 ， 



































注 3: 你 可 能 会 癌 :“ 有 没有 “ 非 正则 ”的 表达 式 ? ” 非 正 则 表达 式 超 出 了 本 书 的 介绍 范围 ， 它 们 其 实 是 指 
那些 像 “前 面 是 素数 个 a， 后 面 跟着 两 倍 于 a 数量 的 b ”“ 写 一 个 回 文 ”之 类 的 字符 串 。 用 正则 表达 式 
不 可 能 写 出 这 类 字符 串 。 不 过 好 在 我 的 网 络 疏 虫 至 今 还 从 未 遇 到 过 这 种 需求 。 







































































入 各 
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(4) 最 后 一 位 是 字母 “d” 或 “e"。 
注 足 上 面 规则 的 字符 串 有 “aaaabbbbbccccd”“aabbbbbcce” 等 《有 无 穷 多 种 变化 ) 。 
正则 表达 式 就 是 表达 这 组 规则 的 一 种 快捷 方式 。 这 组 规则 的 正则 表达 式 如 下 所 示 : 


aaxbbbbb(cc)*(dle) 





乍 看 这 个 字符 串 会 觉得 有 点 儿 奇 葛 ， 但 是 当 我 们 把 它 分 解 之 后 就 会 很 清楚 了 。 

aa* 
a 后 面 跟着 的 ax ( 读 作 a 星 ) 表示 “重复 任意 次 a， 包括 0 次 ”。 这 样 就 可 以 保证 字母 a 
至 少 出 现 一 次 。 

bbbbb 
这 没什么 特别 的 ， 就 是 5 个 b。 

(CC)* 


任意 偶数 个 字符 都 可 以 编组 ， 这 个 规则 是 用 括号 括 住 两 个 c， 然 后 后 面 跟 一 个 星 号 ， 表 
示 可 以 有 任意 次 两 个 c (也 可 以 是 0 次 )。 








(dle) 
在 两 个 表达 式 中 间 增 加 一 个 紧 线 (|) 表示 “这 个 或 那个 "。 本 例 中 表示 “增加 一 个 d 或 
者 一 个 e 。 这 样 就 可 以 保证 字符 串 的 结尾 是 这 两 个 字母 之 一 。 





尝试 正则 表达 式 

在 学 习 书写 正则 表达 式 的 时 候 ， 通 过 实验 来 感受 一 下 它们 如 何 工作 ， 这 是 至 
关 重 要 的 。 如 果 你 不 想 打 开 代 码 编辑 器 ， 写 儿 行 代码 ， 然 后 再 运行 程序 以 检 
查 正则 表达 式 的 运行 是 否 符合 预期 ， 那 么 你 可 以 去 Regex Pal 这 类 网 站 在 线 
测试 你 的 正则 表达 式 。 









































表 2-1 列 出 了 常用 的 正则 表达 式 符号 ， 以 及 简短 的 解释 和 示例 。 这 个 列表 并 没有 历 括 全 部 
的 正则 表达 式 ， 正 如 前 面 提 到 的 ， 不 同 语言 中 的 正则 表达 式 符号 会 略 有 不 同 。 但 是 ， 这 里 
列 出 的 12 个 符号 是 Python 中 最 常用 的 正则 表达 式 符号 ， 可 以 用 于 查找 和 获取 几乎 任意 字 
符 串 类 型 。 


表 2-1: 常用 的 正则 表达 式 符 号 






























































符号 含 义 例 子 匹配 结果 

此 c 配 前 面 的 字符 、 子 表达 式 或 括号 里 的 字符 0 次 或 多 次 a*b* aaaaaaaa，aaabbbbb， 
bbbbbb 

+ 匹配 前 面 的 字符 、 子 表达 式 或 括号 里 的 字符 至 少 1 次 a+b+ aaaaaaab ，aaabbbbb， 
abbbbbb 
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( 续 ) 


















































































































































符号 含 汉 例 匹配 结果 
[] 匹配 中 括号 里 的 任意 一 个 字符 (相当 于 “ 任 选 一 个 ”) LA-Z1* APPLE, CAPITALS, 
QWERTY 
() 表达 式 编 组 (在 正则 表达 式 的 规则 里 编组 会 优先 运行 ) (a*b)* aaabaab，abaaab， 
ababaaaaab 
{m,n} 匹配 前 面 的 字符 、 子 表达 式 或 括号 里 的 字符 m 到 nn 次 a{2,3}b{2,3} aabbb, aaabbb, aabb 
(包含 或 n) 
[^] ”匹配 任意 一 个 不 在 中 括号 里 的 字符 [^A-Z]* apple, lowercase, 
qwerty 
| 匹配 任意 一 个 由 坚 线 分 割 的 字符 、 子 表达 式 (注意 是 竖 blalile)d bad，bid，bed 
线 ， 不 是 大 字 字 母 1) 
匹配 任意 单个 字符 (包括 符号 、 数 字 和 空格 等 ) b.d bad, bzd, b$d, bd 
指 字符 串 开 始 位 置 的 字符 或 子 表达 式 a apple, asdf, a 
\ 转 义 字符 (把 有 特殊 含义 的 字符 转换 成 字面 形式 ) A 小 
$ 经 常用 在 正则 表达 式 的 末尾 ， 表 示 “ 从 字符 串 的 末端 号 [A-Z]*[a-z]*$ ABCabc，zzzyx，Bob 
配 "”。 如 果 不 用 它 ， 每 个 正则 表达 式 实际 都 带 着 “.*” 模 
式 ， 只 会 从 字符 串 开 头 进 行 匹配 。 这 个 符号 可 以 看 成 是 
^ 符 号 的 反义词 
?! “不 包含 "。 这 个 奇怪 的 组 合 通常 放 在 字符 或 正则 表达 式 ^((?![A-Z]).)*$ no-caps-here，$ymb0ls 
前 面 ， 表 示 字 符 不 能 出 现在 目标 字符 串 里 。 这 个 符号 比 a4e flne 
较 难 用 ， 毕 竞 字符 通常 会 在 字符 串 的 不 同 部 位 出 现 。 如 
果 要 在 整个 字符 串 中 彻底 排除 某 个 字符 ， 就 加 上 ^ 和 $ 
符号 
正则 表达 式 在 实际 中 的 一 个 经 典 应 用 是 识别 邮箱 地 址 。 虽 然 不 同 邮 箱 服务 器 的 邮箱 地 址 的 
具体 规则 不 尽 相 同 ， 但 是 我 们 还 是 可 以 创建 儿 条 通用 规则 。 每 条 规则 对 应 的 正则 表达 式 如 
下 表 第 2 列 所 示 。 
规 则 正则 表达 式 





1. 邮箱 地 址 的 第 一 部 分 至 少 包括 
一 种 内 容 : 大 写字 母 、 小 写字 
母 、 数 字 0-9、 点 号 (.)、 加 号 














(+) 或 下 划 线 (_) 








(不 是 小 括号 ) 





[A-Za-z0-%\_+]+: 这 个 正则 表达 式 简 写 非 常 智慧 。 
表示 “A-Z 中 的 任意 大 写字 母 "。 把 所 有 可 能 的 序 丈 
里 表示 “可 以 是 方 括号 中 的 任何 


例如 ， 它 用 “A-Z” 
和 符号 放 在 中 括号 


个 符号 ”。 要 注意 后 














面 的 加 号 ， 它 表示 “这 些 符 号 都 可 以 出 现 多 次 ， 但 至 少 要 出 现 1 次 ” 










































































2. 之 后 ， 邮 箱 地 址 会 包含 一 个 @ @: 这 个 符号 很 简单 : @ 符号 必须 出 现在 中 间 位 置 ， 并 且 只 能 出 现 
符号 1 次 

3. 在 符合 @ 之 后 ， 邮 箱 地 址 还 必 [A-Za-z]+: 可 能 只 在 域名 的 前 半 部 分 、 符 号 @ 后 面 用 字母 。 而 且 ， 至 
须 至 少 包 含 一 个 大 写 或 小 写字 母 ” 少 要 有 一 个 字符 

4. 之 后 跟 一 个 点 号 (.) \: 在 域名 前 必须 有 一 个 点 号 (.)。 退 格 在 这 里 用 作 转 义 字 符 

5. 最 后 邮箱 地 址 用 com、org、edu、 (comlorgledulnet): 这 样 列 出 了 后 半 部 分 邮箱 地 址 中 可 能 出 现在 点 号 之 
net 结尾 (实际 上 ， 顶 级 域名 有 后 的 字母 序列 
很 多 种 可 能 ， 但 是 作为 示例 演 
示 这 4 个 后 级 够 用 了 ) 
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把 上 面 的 规则 连接 起 来 ， 就 获得 了 完整 的 正则 表达 式 : 
[A-Za-z0-9\. +]+Q[A-Za-z]+\.(com|orgledu|net) 
当 动 手 开始 写 正则 表达 式 的 时 候 ， 最 好 先 写 一 个 步骤 列表 ， 有 具体 描述 出 你 的 目标 字符 串 结 


构 。 还 要 注意 一 些 细节 的 处 理 。 比 如 ， 当 你 识别 电话 号 码 的 时 候 ， 会 考虑 国家 代码 和 分 机 
号 吗 ? 





























正则 表达 式 : 并 非 处 处 正则 ! 

正则 表达 式 的 标准 版 (本 书 使 用 的 版 本 ， 用 于 Python 和 BeautifulSoup) 是 基 
于 Perl 语法 演变 而 来 的 。 绝 大 多 数 现 代 编 程 语言 都 使 用 与 之 相同 或 近似 的 版 
本 。 但 是 要 注意 ， 在 其 他 语言 中 使 用 这 些 正则 表达 式 时 可 能 会 出 问题 。 有 些 
语言 ， 比 如 Java， 其 正则 表达 式 就 和 Python 不 大 一 样 。 总 之 ， 遇 到 问题 时 
看 文档 | 


二 






































2.4 正则 表达 式 和 BeautifulSoup 


如 有 果 你 觉得 前 面 介 绍 的 正则 表达 式 内 容 与 本 书 的 主题 有 点 儿 脱节 ， 那 么 这 里 就 把 它们 连接 
起 来 。 在 抓 取 网 页 的 时 候 ，BeautifulSoup 和 正则 表达 式 总 古 配 合 使 用 的 。 其 实 ， 大 多 数 支 
持 字符 串 参 数 的 函数 (比如 ，find(id="aTagIdHere")) 也 都 支持 正则 表达 式 。 





让 我 们 看 几 个 例子 ， 待 抓 取 的 网 页 是 http://www.pythonscraping.com/pages/page3.html。 





注意 观察 网 页 上 有 几 张 商品 图 片 ， 它 们 的 源 代码 形式 如 下 : 

<img src="../img/gifts/img3.jpg"> 
如 果 我 们 想 抓 取 所 有 图 片 的 URL 链接， 非常 直接 的 做 法 就 是 用 find_all("img") 抓 取 所 有 
图 片 ， 对 吗 ? 但 是 有 个 问题 。 除 了 那些 明显 “多 余 的 ”图 片 (比如 LOGO) 之 外 ,现代 网 


站 里 都 有 一 些 隐藏 的 图 片 、 用 于 网 页 布局 留 白 和 元 素 对 齐 的 空白 图 片 ， 以 及 一 些 不 容易 察 
觉 到 的 图 片 标签 。 总 之 ， 你 不 能 仅 用 商品 图 片 来 统计 网 页 上 所 有 的 图 片 。 















































网 页 的 布局 也 可 能 会 变化 ， 或 者 ， 因 为 某 些 原因 ， 我 们 不 想 通过 图 片 在 网 页 中 的 位 置 来 查 
找 标签 。 当 你 想 抓 取 随 机 分 布 在 网 站 里 的 某 个 元 素 或 数据 时 ， 可 能 就 是 这 种 情况 。 例 如 ， 
一 些 网 页 的 最 上 面 可 能 有 一 张 布局 特殊 的 商品 图 片 ， 但 是 另 一 些 网 页 上 则 没有 。 

















解决 这 类 问题 的 办 法 ， 就 是 直接 定位 那些 标签 来 查找 信息 。 在 本 例 中 ， 我 们 直接 通过 商品 
图 片 的 文件 路 径 来 查找 : 











from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 
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html = urlopen('http://www.pythonscraping.com/pages/page3.html') 
bs = BeautifulSoup(html, 'html.parser') 
images = bs.find_all('img', 
{'src':re.compile('\.\.\/img\/gifts\/img.*\.jpg')}) 
for image in images: 
print(image['src']) 








这 段 代码 会 打印 出 图 片 的 相对 路 径 ， 都 是 以 ../img/gifts/img 开头 ， 以 .jpg 结尾， 其 结果 如 
下 所 示 : 

../img/gifts/img1.jpg 

../img/gifts/img2.jpg 

../img/gifts/img3.jpg 


../img/gifts/img4.jpg 
../img/gifts/img6.jpg 


正则 表达 式 可 以 作为 BeautifulSoup 语句 的 任意 一 个 参数 ， 让 你 可 以 灵活 地 查找 目标 元 素 。 


2.5 获取 属性 
到 目前 为 止 ， 我们 已 经 介绍 过 如 何 获 取 和 过 滤 标 签 ， 以 及 如 何 获 取 标 签 里 的 内 容 。 但 是 ， 
在 抓 取 网 页 时 你 经 常 不 需要 查找 标签 的 内 容 ， 而 是 需要 查找 标签 属性 。 比 如 标签 a 指向 的 
URL 链接 包含 在 href 属性 中 ， 或 者 img 标签 的 图 片 文件 包含 在 src 属性 中 ， 这 时 获取 标 
签 属性 就 变 得 非常 有 用 了 。 


对 于 一 个 标签 对 象 ， 可 以 用 下 面 的 代码 获取 它 的 全 部 属性 : 





























myTag.attrs 





要 注意 这 行 代码 返回 的 是 一 个 Python 字典 对 象 ， 可 以 轻松 获取 和 操作 这 些 属性 。 比 如 要 获 
取 图 片 的 源 位 置 src， 可 以 用 下 面 这 行 代码 : 





myImgTag.attrs['src'] 


2.6 Lambda 表 达 式 


如 果 你 在 学 校 读 的 是 计算 机 科学 专业 ， 那 么 可 能 学 过 Lambda 表达 式 ， 不 过 可 能 从 来 没有 
用 过 它 。 如 果 你 不 是 计算 机 科学 专业 ， 它 们 看 着 可 能 有 点 儿 陌生 (或 者 只 是 “曾经 学 习 过 
的 东西 ")。 在 这 一 市 里 ， 虽 然 我 们 不 打算 深入 学 习 这 类 函数 ， 但 是 会 用 几 个 例子 来 演示 它 
们 是 如 何 用 在 网 页 抓 取 中 的 。 


Lambda 表达 式 本 质 上 就 是 一 个 函数 ， 可 以 作为 变量 传 入 另 一 个 函数 ， 也 就 是 说 ， 一 个 函 
数 不 是 定义 成 f(x,，y)， 而 是 可 以 定义 成 f(g(x), y) 或 f(g(x), hly)) 的 形式 。 
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BeautifulSoup 允许 我 们 把 特定 类 型 的 函数 作为 参数 传 入 find_all 函数 。 唯 一 的 限制 条 件 是 
这 些 函 数 必须 把 一 个 标签 对 象 作为 参数 并 且 返 回 布尔 类 型 的 结果 。BeautifulSoup 用 这 个 
函数 来 评估 它 遇 到 的 每 个 标签 对 象 ， 最 后 把 评估 结果 为 “ 真 ”的 标签 保留 ， 把 其 他 标签 
别 除 。 


例如 ， 下 面 的 代码 就 是 获取 有 两 个 属性 的 所 有 标签 : 
























































bs.find_aLL(Lambda tag: len(tag.attrs) == 2) 


这 里 ， 作 为 参数 传 入 的 函数 是 Len(tag.attrs) == 2。 当 该 参数 为 真 时 ，find_all 函数 将 返 
回 tag。 即 找 出 带 有 两 个 属性 的 所 有 标签 ， 如 下 所 示 : 





<div class="body" id="content"></div> 
<span style="color:red" class="title"></span> 


Lambda 函数 非常 实用 ， 你 甚至 可 以 用 它 来 替代 现 有 的 BeautifulSoup 函数 : 


bs.find_aLL(Lambda tag: tag.get text() == 
'Or maybe he\'s only resting?') 


如 果 不 使 用 Lambda 函数 ， 代 码 如 下 : 
bs.find_all('', text='Or maybe he\'s only resting?') 


如 果 你 能 记 住 Lambda 函数 的 语法 ， 以 及 如 何 获取 标签 的 属性 ， 那 么 你 可 能 再 也 不 需要 记 
住 BeautifulSoup 的 语法 了 ! 








由 于 Lambda 函数 可 以 是 任意 返回 True 或 者 Fatse 值 的 函数 ， 你 甚至 可 以 结合 使 用 
Lambda 国 数 与 正则 表达 式 ， 来 查找 匹配 特定 字符 串 模式 的 属性 的 标签 。 
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编写 网 络 爬 虫 











到 目前 为 止 ， 本 书 的 例子 都 只 是 处 理 单个 静态 页 面 ， 只 能 算是 人 为 简化 的 例子 (使 用 作者 的 网 
站 页 面 )。 从 本 章 开始 ， 我 们 会 看 到 一 些 现实 问题 ， 需 要 用 扑 虫 遍历 多 个 页 面 甚至 多 个 网 站 。 




















之 所 以 叫 网 络 息 虫 ， 是 因为 它们 可 以 在 Web 上 疏 行 。 它 们 本 质 上 就 是 一 种 递归 方式 。 它 们 
必须 首先 获取 一 个 URL 对 应 的 网 页 内 容 ， 然 后 检查 这 个 页 面 ， 寻 找 另 一 个 URL， 再 获取 
该 URL 对 应 的 网 页 内 容 ， 并 不 断 循环 这 一 过 程 。 








不 过 要 注意 的 是 : 你 可 以 抓 取 网 页 ， 并 不 意味 着 你 总 是 应 该 这 么 做 。 当 你 需要 的 所 有 数据 
都 在 一 个 页 面 上 时 ， 前 面 例子 中 的 爬虫 就 足以 解决 问题 了 。 使 用 网 络 爬 虫 的 时 候 ， 必 须 非 
常 谨慎 地 考虑 需要 消耗 多 少 带 宽 ， 还 要 尽力 思考 能 不 能 让 抓 取 目 标的 服务 器 负载 更 低 一 些 。 


3.1 遍历 单个 域名 


即使 你 疫 听 说 过 “维基 百科 六 度 分 隔 理论 "， 也 很 可 能 听 过 “ 凯 文 贝 肯 (Kevin Bacon) 
的 六 度 分 隔 值 游 戏 "。 在 这 两 个 游戏 中 ， 目 标 都 是 把 两 个 不 相干 的 主题 (在 前 一 种 情况 中 
是 相互 链接 的 维基 百科 词 条 ， 而 在 后 一 种 情况 中 是 出 现在 同一 部 电影 中 的 演员 ) 用 一 个 链 
条 (至 多 包含 6 个 主题 ， 包 括 原 来 的 两 个 主题 ) 连接 起 来 。 

比如 ， 埃 里 克 ' 艾 德尔 和 布 兰 登 . 弗 雷 泽 都 出 现在 电影 《 骑 警 杜 德 雷 》 里 ， 布 兰 登 . 弗 雷 泽 


又 和 凯 文 * 贝 肯 都 出 现在 电影 《我 呼吸 的 空气 》 里 。' 因此 ， 根 据 这 两 个 条 件 ， 从 埃 里 克 … 
艾 德 尔 到 凯 文 贝 骨 的 链条 长 度 只 有 3 个 主题 。 















































注 1: 感谢 The Oracle of Bacon 的 存在 ,满足 了 我 对 这 类 关系 链 的 好 奇 心 。 
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我 们 将 在 本 节 创 建 一 个 项 目 来 实现 “维基 百科 六 度 分 隔 理论 ”的 查找 方法 。 也 就 是 说 ， 我 们 
要 实现 从 埃 里 克 ' 艾 德尔 的 词 条 页 面 (https://en.wikipedia.org/wiki/Eric Idle) 开始 ， 经 过 最 少 
的 链接 点 击 次 数 找到 凯 文 * 贝 肯 的 词 条 页 面 (https://en.wikipedia.org/wiki/Kevin_Bacon)。 











这 么 做 对 维基 百科 的 服务 器 负载 有 多 大 影响 ? 
根据 维基 媒体 基金 会 (维基 百科 所 属 的 组 织 ) 的 统计 ， 该 网 站 每 秒 会 收 到 大 约 2500 
次 点 击 ， 其 中 超过 99% 的 点 击 都 指向 维基 百科 域名 [详情 请 见 “ 维 基 媒 体 统计 图 ” 
(Wikimedia in Figures) 里 的 “流量 数据 ”(Traffic Volume) 部 分 内 容 ]。 因 为 网 站 流量 
很 大 ， 所 以 你 的 网 络 爬 虫 不 可 能 对 维基 百科 的 服务 器 负载 产生 显著 影响 。 不 过 ， 如 果 
你 频繁 地 运行 本 书 的 代码 示例 ， 或 者 自己 创建 项 目 来 抓 取 维基 百科 的 词 条 ,那么 希望 
你 能 够 向 维基 媒体 基金 会 提供 一 点 捐赠 不 只 是 为 了 抵消 你 占用 的 服务 器 资源 ， 也 
是 为 了 其 他 人 能 够 利用 维基 百科 这 个 教育 资源 。 

还 需要 注意 的 是 ， 如 果 你 准备 利用 维基 百科 的 数据 做 一 个 大 型 项 目 ， 应 该 确认 该 数据 
是 不 能 够 通过 维基 百科 API 获取 的 。 维 基 百 科 网 站 经 常 被 用 于 演示 有 疏 贝 ， 因 为 它 的 
HTML 结构 简单 并 且 相 对 稳定 。 但 是 它 的 API 往往 会 使 得 数据 获取 更 加 高 效 。 

















你 应 该 已 经 知道 如 何 写 一 段 Python 代码 ， 来 获取 维基 百科 网 站 的 任何 页 面 并 提取 该 页 面 中 
的 链接 了 。 





from UrLLib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon') 
bs = BeautifulSoup(html, 'html.parser') 
for Link in bs.find_all('a'): 
if "href' in link.attrs: 
print(Link.attrs['href']) 

















如 果 你 观察 生成 的 一 列 链接 ， 会 看 到 你 想 要 的 所 有 词 条 链接 都 在 里 面 : “Apollo 13” 
“Philadelphia”“Primetime Emmy Award ， 等 等 。 但 是 ， 也 有 一 些 你 不 需要 的 链接 : 











//wikimediafoundation.org/wiki/Privacy_policy 
//en.wikipedia.org/wiki/Wikipedia:Contact_us 





其 实 ， 维基 百科 的 每 个 页 面 都 充满 了 侧 边 栏 、 页 眉 和 页 脚 链接 ， 以 及 连接 到 分 类 页 面 、 
话 页 面 和 其 他 不 包含 词 条 的 页 面 的 链接 : 


对 





























/wiki/Category:Articles with_ unsourced_statements_from April 2014 
/wiki/Talk:Kevin_Bacon 


最 近 我 有 个 朋友 在 做 一 个 类 似 的 维基 百科 抓 取 项 目 ， 他 说 ， 为 了 判断 一 个 维基 百科 内 链 是 
否 链接 到 一 个 词 条 页 面 ， 他 写 了 一 个 很 大 的 过 小 函数 ， 代 码 超过 了 100 行 。 不 幸 的 是 ， 他 
没有 提前 花 很 多 时 间 去 寻找 “ 词 条 链接 ”和 “其 他 链接 ”之 间 的 模式 ， 也 可 能 他 后 来 发 现 
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了 。 如 果 你 仔细 观察 那些 指向 词 条 页 面 (不 是 指向 其 他 内 部 页 面 ) 的 链接 ， 会 发 现 它们 都 
有 3 个 共同 点 : 




















。 它们 都 在 id 是 bodyContent 的 div 标签 里 
。 URL 不 包含 冒号 
。 URL 都 以 /wiki 开头 





我 们 可 以 利用 这 些 规则 稍微 调整 一 下 代码 来 仅 获 取 词 条 链接 ， 使 用 的 正则 表达 式 为 
AC/wiki/) C7!:).)*$"): 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 


html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon') 
bs = BeautifulSoup(html, 'html.parser') 
for link in bs.find('div', {'id':'bodyContent'}).find all(l 
'a', href=re.compile('^(/wiki/)((?!:).)*$')): 
if 'href' in link.attrs: 
print(link.attrs['href']) 





如 果 你 运行 以 上 代码 ， 就 会 看 到 维基 百科 上 凯 文 * 贝 肯 词 条 里 所 有 指向 其 他 词 条 的 链接 。 


当然 ， 写 程序 来 找 出 这 个 静态 的 维基 百科 词 条 里 所 有 的 词 条 链接 很 有 趣 ， 不 过 没什么 实际 
用 处 。 你 需要 让 这 段 程序 更 像 下 面 的 形式 。 


。 一 个 函数 getLinks, 可 以 用 一 个 /wiki/< 词 条 名 称 > 形式 的 维基 百科 词 条 URL 作为 参数 ， 
然后 以 同样 的 形式 返回 一 个 列表 ， 里 面包 含 所 有 的 词 条 URL。 

。 一 个 主 函数 ， 以 某 个 起 始 词 条 为 参数 调用 getLinks， 然 后 从 返回 的 URL 列表 里 随机 选 
择 一 个 词 条 链接 ， 再 次 调用 getLinks， 直 到 你 主动 停止 程序 ， 或 者 在 新 的 页 面 上 没有 词 
条 链接 了 。 


完整 的 代码 如 下 所 示 : 
































from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import datetime 

import random 

import re 


random. seed(datetime.datetime.now()) 
def getLinks(articleUrl): 
html = urlopen('http://en.wikipedia.org{}' .format(articleUrl)) 
bs = BeautifulSoup(html, 'html.parser') 
return bs.find('div', {'id':'bodyContent'}).find_all('a', 
href=re.compile('^(/wiki/)((?!:).)*$')) 


links = getLinks('/wiki/Kevin_Bacon') 
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while len(links) > 0: 
newArticle = links[random.randint(0, len(links)-1)].attrs['href'] 
print(newArticle) 
links = getLinks(newArticle) 


导入 需要 的 Python 库 之 后 ， 程 序 首先 做 的 是 用 系统 当前 时 间 设 置 随机 数 生成 器 的 种 子 。 这 
样 可 以 保证 每 次 程序 运行 的 时 候 ， 维 基 百 科 词 条 的 选择 都 是 一 个 全 新 的 随机 路 径 。 








伪 随 机 数 和 随机 数 种 子 
在 前 面 的 示例 中 ， 为 了 能 够 连续 地 随机 遍历 维基 百科 ， 我 用 Python 的 随机 数 生成 器 在 
每 个 页 面 上 随机 选择 一 个 词 条 链接 。 但 是 ， 用 随机 数 的 时 候 需要 格外 小 心 。 


虽然 计算 机 很 擅长 做 精确 计算 ， 但 是 它们 处 理 随 机 事件 时 非常 不 靠 谱 。 因 此 ， 随 机 数 
是 一 个 难题 。 大 多 数 随机 数 算 法 都 努力 生成 一 个 呈 均 匀 分 布 且 难以 预测 的 数字 序列 ， 
但 是 在 算法 初始 化 阶段 都 需要 提供 一 个 随机 数 “种 子 ” (random seed) 。 而 完全 相同 
的 种 子 每 次 将 生成 同样 的 “随机 ” 数 序列 ， 因 此 我 将 系统 时 间作 为 生成 新 随机 数 序列 
(和 新 随机 词 条 序列 ) 的 起 点 。 这 样 做 会 让 程序 运行 的 时 候 更 具有 随机 性 。 


其 实 ，Python 的 伪 随 机 数 生 成 器 用 的 是 梅森 旋转 (Mersenne Twister) 算法 ， 它 生成 的 随 
机 数 很 难 预测 且 呈 均匀 分 布 ， 就 是 有 点 儿 耗 葛 CPU 资源 。 真 正好 的 随机 数 可 不 便宜 ! 











然后 ， 程 序 定义 getLinks 函数 ， 它 接收 一 个 /wiki/< 词 条 名 称 > 形式 的 维基 百科 词 条 URL 
作为 参数 ， 在 前 面 加 上 维基 百科 的 域名 http://en.wikipedia.org， 再 用 该 域名 的 HTML 
获得 一 个 Beautifulsoup 对 象 。 之 后 ， 基 于 前 面 介绍 过 的 参数 ， 抽 取 一 列 词 条 链接 所 在 的 
标签 a 并 返回 它们 。 








程序 的 主 国 数 首先 把 起 始 页 面 https://en.wikipedia.org/wiki/Kevin Bacon 里 的 词 条 链接 列表 设 
置 成 链接 标签 列表 〈Links 变量 ) 。 然 后 用 一 个 循环 ， 从 页 面 中 随机 找 一 个 词 条 链接 标签 并 抽 
取 href 属性 ， 打 印 这 个 页 面 ， 再 把 这 个 链接 传 入 getLinks 函数 ， 重 新 获取 新 的 链接 列表 。 











当然 ， 这 里 只 是 简单 地 构建 一 个 从 一 个 页 面 到 另 一 个 页 面 的 展 虫 ， 要 解决 “维基 百科 六 度 
分 隔 理论 ”问题 还 需要 再 做 一 点 儿 工 作 。 我 们 还 应 该 存储 URL 链接 数据 并 分 析 数 据 。 关 
于 这 个 问题 的 具体 解决 办 法 ， 请 参考 第 6 章 内 容 。 











异常 处 理 

虽然 为 了 简洁 起 见 ， 我 们 在 这 些 示例 中 名 略 了 大 多 数 异常 处 理 过 程 ， 但 是 要 注 
意 问题 随时 可 能 发 生 。 例 如 ， 维 基 百 科 改 变 了 bodyContent 标签 的 名 称 怎么 办 
呢 ?” 当 程序 尝试 从 该 标签 抽取 文本 时 ， 程 序 会 抛 出 AttributeError 异常 。 
因此 ， 这 些 脚 本 作为 演示 示例 也 许可 以 运行 得 很 不 错 ， 但 是 要 真正 成 为 自动 
化 产品 代码 ， 还 需要 增加 更 多 的 异常 处 理 。 关 于 异常 处 理 的 更 多 信息 ， 请 参 
考 第 1 章 的 相关 内 容 。 
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3.2 抓 取 整 个 网 站 

上 一 节 ， 我 们 实现 了 在 一 个 网 站 上 随机 地 从 一 个 链接 跳 到 另 一 个 链接 。 但 是 ， 如 果 你 需要 
系统 地 为 网 站 编目 录 ， 或 者 要 搜索 网 站 上 的 每 一 个 页 面 ， 该 怎么 办 ? 抓 取 整 个 网 站 ， 尤 其 
是 大 型 网 站 ， 是 一 个 非常 耗费 内 存 资源 的 过 程 ， 最 合适 的 工具 就 是 用 数据 库 来 存储 抓 取 结 
果 的 应 用 。 但 是 ， 我 们 可 以 探索 这 些 类 型 的 应 用 的 行为 ， 而 无 须 全 面 地 运行 它们 。 要 了 解 
更 多 关于 使 用 数据 库 来 运行 这 些 应 用 的 相关 知识 ， 请 参考 第 6 章 。 















































深 网 和 暗 网 
你 可 能 听 说 过 深 网 (deep Web)、 瞳 网 (dark Web) 或 隐藏 网 络 (hidden Web) 之 类 的 
术语 ， 尤 其 是 在 最 近 的 媒体 中 。 它 们 是 什么 意思 呢 ? 
深 网 是 Web 的 一 部 分 ， 与 浅 网 (surface Web)“ 对 立 。 浅 网 是 互联 网 上 搜索 引擎 可 以 
抓 到 的 那 部 分 网 络 。 据 估计 ， 互 联网 中 其 实 约 90% 的 网 络 都 是 深 网 。 因 为 谷歌 不 能 做 
像 表 单 提交 这 类 事情 ， 也 找 不 到 那些 没有 直接 链接 到 顶层 域名 上 的 网 页 ， 或 者 因为 有 
robots.txt 禁止 而 不 能 查看 网 站 ， 所 以 浅 网 的 数量 相对 深 网 还 是 比较 少 的 。 
瞳 网 ， 也 被 称 为 darknet， 则 完全 是 另 一 种 网 络 3。 它 们 也 建立 在 已 有 的 网 络 硬件 基础 
上 ， 但 是 使 用 Tor 或 者 另 一 个 客户 器， 带 有 运行 在 HTTP 之 上 的 应 用 协议 ， 提 供 了 一 
个 信息 交换 的 安全 渠道 。 这 类 瞳 网 页 面 也 是 可 以 抓 取 的 ， 就 像 抓 取 其 他 网 站 一 样 ， 不 
过 这 超出 了 本 书 的 范围 。 
和 有 瞳 网 不 同 ， 深 网 相对 容易 抓 取 。 实 际 上 ， 本 书 中 的 很 多 工具 都 会 教 你 如 何 抓 取 那些 
Google 网 络 机 器 人 不 能 获取 的 深 网 信息 。 














那么 ， 什 么 时 候 抓 取 整 个 网 站 是 有 用 的 ， 什 么 时 候 又 是 有 害 无 益 的 呢 ? 遍历 整个 网 站 的 网 
络 疏 虫 有 许多 好 处 。 


生成 网 站 地 图 
几 年 前 ， 我 曾经 遇 到 过 一 个 问题 : 一 位 重要 的 客户 想 对 网 站 的 一 个 重新 设计 方案 进行 效 
果 评 估 ， 但 是 不 想 让 我 们 公司 进入 他 们 的 网 站 内 容 管理 系统 (CMS)， 也 没有 一 个 公开 
可 用 的 网 站 地 图 。 我 就 用 候 虫 抓 取 了 整个 网 站 ,收集 了 所 有 的 内 链 ， 然 后 把 页 面 整理 成 
他 们 网 站 实际 使 用 的 目录 结构 。 这 样 ， 我 很 快 找 出 了 网 站 中 我 以 前 不 曾 留意 的 部 分 ， 并 
准确 地 计算 出 了 需要 重新 设计 多 少 网 页 ， 以 及 需要 移动 多 少 内 容 。 


收集 数据 
我 的 另 一 位 客户 为 了 给 一 个 专业 的 搜索 平台 创建 一 个 工作 原型 ， 想 收集 一 些 文章 ( 故 
事 、 博 文 、 新 闻 文 章 等 )。 虽 然 这 些 网 站 的 抓 取 不 需要 全 面 彻底 ， 但 是 需要 广泛 (我们 


























注 2: 参见 Alex Wright 的 “Exploring a “Deep Web” that Google Can’t Grasp”。 
注 3: 参考 Andy Greenberg 的 “Hacker Lexicon: What is the Dark Web?”。 





入 后 
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有 意 收 集 数 据 的 网 站 不 多 )。 于 是 我 就 创建 了 一 个 爬虫 来 递归 地 遍 历 每 个 网 站 ， 并 且 只 


收集 那些 文章 页 面 上 的 数据 。 








全 面 彻底 地 抓 取 网 站 的 常用 方法 是 从 一 个 顶级 页 面 ( 比 如 主页 ) 开始 ， 然 后 搜索 该 页 面 上 
的 所 有 内 链 ， 形 成 列表 。 之 后 ， 抓 取 这 些 链 接 跳 转 到 的 每 一 个 页 面 ， 再 把 在 每 个 页 面 上 找 
到 的 链接 形成 新 的 列表 ， 接 着 执行 下 一 轮 抓 取 。 


很 明显 ， 这 是 一 种 复杂 度 迅速 增加 的 情形 。 假 如 每 个 页 面 有 10 个 内 链 ， 网 站 的 深度 是 5 
个 页 面 (中 等 规模 网 站 的 常见 深度 )， 那 么 如 果 你 要 抓 取 整 个 网 站 ， 一 共 得 抓 取 的 网 页 数 
量 就 是 10 ”， 即 100 000 个 页 面 。 不 过 ， 虽 然 “5 个 页 面 的 深度 ， 每 个 页 面 10 个 内 链 ” 是 
网 站 的 主流 配置 ， 但 其 实 很 少 有 网 站 真 的 有 100 000 个 或 更 多 的 页 面 。 这 是 因为 大 部 分 内 























链 都 是 重复 的 。 












































为 了 避免 一 个 页 面 被 抓 取 两 次 ， 链 接 去 重 是 非常 重要 的 。 在 代码 运行 时 ， 要 把 已 发 现 的 所 














有 链接 都 放 到 一 起 ， 并 保存 在 方便 查询 的 集合 (set) 里 。 集 合 与 列表 类 似 ， 但 是 集合 中 的 
元 素 设 有 特定 的 顺序 ， 集 合 只 存储 唯一 的 元 素 ， 这 正 是 我 们 需要 的 功能 。 只 有 “新 ”链接 

















才 应 被 抓 取 ， 并 从 其 页 面 中 搜索 其 他 链接 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 


pages = set() 
def getLinks(pageUrtL) : 
global pages 








html = UrLopen('http://en.wikipedia.org{}' .format(pageUrL)) 
bs = BeautifulSoup(html, 'html.parser') 
for Link in bs.find all('a', href=re.compile('^(/wiki/)')): 


if 'href' in link.attrs: 


if link.attrs['href'] not in pages: 


#We have encountered 


a New page 


newPage = link.attrs['href'] 


print(newpage) 

pages .add(newPage) 

getLinks (newPage) 
getLinks('') 


为 了 全 面 地 展示 这 个 网 页 抓 取 示例 是 如 何 工 作 的 ， 我 降低 了 在 前 面 例子 里 使 用 的 “只 寻找 





























内 链 ” 的 标准 ， 不 再 限制 慌 虫 抓 取 的 页 面 范 围 ， 只 要 遇 到 页 面 就 查找 所 有 以 /wiki/ 开头 的 











链接 ， 也 不 考虑 链接 是 不 是 包含 冒号 。 提 示 : 词 条 链接 不 包含 冒号 ， 而 文档 上 传 页 面 、 讨 








论 页 面 之 类 的 页 面 URL 都 包含 冒号 。 














一 开始 ， 用 getLinks 处 理 一 个 空 URL， 其 实 就 是 维基 百科 的 主页 ， 因 为 在 函数 里 空 URL 
就 是 http://en.wikipedia.org。 然 后 ,遍历 首 页 上 的 每 个 链接 ， 并 检查 它 是 否 已 经 在 全 局 





变量 集合 pages (已 经 抓 取 的 页 面 集合 ) 是 





























有 E 面 了 。 如 有 果 不 在 ， 就 添加 到 集合 中 ， 并 打印 到 
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屏幕 上 ， 再 用 getLinks 递归 地 处 理 这 个 链接 。 











关于 递归 的 警告 








这 个 警告 在 软件 开发 类 图 





书 里 很 少 提 到 ， 但 是 我 觉得 你 应 该 注意 : 如 果 递 归 
运行 的 次 数 非常 多 ， 前 面 的 递归 程序 很 可 能 会 崩溃 。 





Python 默认 的 递归 限制 (程序 递归 地 调用 自身 的 次 数 ) 是 1000 次 。 因 为 维 





经 











基 百 科 的 链接 网 络 浩如烟海 ， 所 以 这 个 程序 达到 递归 限制 后 就 会 停止 ， 除 非 
你 设置 一 个 较 大 的 递归 计数 器 ， 或 者 采用 其 他 手段 不 让 它 停止。 

对 于 那些 链接 深度 小 于 1000 的 “局 平 ”网 站 ， 这 种 方法 通常 可 行 ， 但 有 一 
些 罕见 的 例外 。 例 如 ， 我 曾 











遇 到 过 一 个 网 站 ， 该 网 站 根据 当前 网 页 的 地 址 





生成 新 的 URL 链接 。 这 就 导致 了 像 blogs/blogs.../blogs/blog-post.php 这 样 不 


断 重 复 的 路 径 。 





但 是 大 多 数 时 候 ， 这 种 递归 


收集 整个 网 站 的 数据 











当然 ， 如 果 只 是 从 一 个 页 面 跳 到 另 一 个 页 
用 它们 ， 在 用 疏 虫 的 时 候 我 们 需要 在 页 面 上 做 些 事情 。 让 我 们 看 看 如 何 创建 一 个 爬虫 来 收 
集 页 面 标题 、 正 文 的 第 一 个 段落 ， 以 及 编辑 页 面 的 链接 (如 果 有 的 话 ) 这 些 信息 。 














的 技巧 对 于 你 碰 到 的 任何 典型 网 站 都 是 适用 的 。 











面 ， 那 么 网 络 扑 虫 是 非常 无 聊 的 。 为 了 有 效 地 使 




















和 往常 一 样 ， 决 定 如 何 做 好 这 些 事情 的 第 一 步 就 是 先 观察 网 站 上 的 一 些 页 面 ， 然 后 拟定 一 
个 抓 取 模 式 。 通 过 观察 几 个 维基 百科 页 面 ， 包 括 词 条 页 面 和 非 词 条 页 面 ， 比 如 隐私 策略 页 





看 ， 就 会 得 出 下 面 的 规则 。 














。 所 有 的 标题 (所 有 页 面 上 ， 不 论 是 词 条 页 面 、 编 辑 历史 页 面 















































是 其 他 页 面 ) 都 是 在 


El 





hl 一 span 标签 里 ， 而 且 页 面 上 只 有 一 个 hi 标签 。 
。 前 面 提 到 过 ， 所 有 的 正文 文本 都 在 div#bodyContent 标签 里 。 但 是 ， 如 果 我 们 只 想 获 取 
第 一 段 文 字 ， 可 能 用 div#mw-content-text 一 p 更 好 (只 选择 第 一 段 的 标签 )。 这 个 规则 





对 所 有 内 容 页 面 都 适用 ， 除 了 文 




















件 页 画 





| (例如 ，https://en.wikipedia.org/wiki/File:Orbit_ 








of 274301_Wikipedia.svg)， 它 们 不 包含 内 容 文本 (content text) 部 分 。 
。 编辑 链接 只 出 现在 词 条 页 面 上 。 如 果 有 编辑 链接 ， 都 位 于 Li#ca-edit 标签 的 Li#ca- 




















edit 一 span 一 a 里面。 





调整 前 面 的 代码 ， 我 们 就 可 以 建立 一 个 候 虫 和 数据 收集 (至 少 是 数据 打印 ) 的 组 合 程 序 : 











from urllib.request import urlopen 


from bs4 import BeautifulSoup 
import re 


pages = set() 
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def getLinks(pageUrtL) : 
global pages 


html = urlopen('http://en.wikipedia.org{}'.format(pageUr1)) 


bs = BeautifulSoup(html, 'html.parser') 
try: 
print(bs.h1.get_text()) 


print(bs.find(id ='mw-content-text').find_all('p')[0]) 


print(bs.find(id='ca-edit').find('span') 
.find('a').attrs['href']) 
except AttributeError: 


print(" 页 面 缺 少 一 些 属性 ! 不 过 不 用 担心 ! ") 

















for Link in bs.find all('a', href=re.compile('^(/wiki/)')): 


if 'href' in link.attrs: 
if link.attrs['href'] not in pages: 
# 我 们 遇 到 了 新 页 面 
newPage = link.attrs['href'] 
print('-'*20) 
print(newpage) 
pages .add(newPage) 
getLinks(newPage) 
getLinks('') 


这 个 程序 中 的 for 循环 和 原来 的 抓 取 程序 中 基本 上 是 一 样 的 (除了 打印 一 条 虚线 来 分 离 不 











同 的 页 面 内 容 之 外 )。 








因为 我 们 不 可 能 确保 每 个 页 面 上 都 有 所 有 类 型 的 数据 ， 所 以 每 个 打印 语句 都 是 按照 数据 在 





页 面 上 出 现 的 可 能 性 从 高 到 低 排 列 的 。 也 就 是 说 ，<h1> 标题 标签 会 出 现在 每 个 页 面 上 ， 所 





以 我 们 首先 试 着 获取 该 数据 。 文 本 内 容 会 出 现在 大 多 数 页 首 








i 上 (除了 文件 页 面 )， 因 此 是 





第 二 个 获取 的 数据 。 编辑 ”按钮 只 出 现在 标题 和 文本 内 容 都 已 存在 的 页 面 上 ， 但 不 是 所 
有 这 类 页 面 上 都 有 “编辑 ”按钮 ， 所 以 我 们 最 后 打印 这 类 数据 。 











不 同 模式 应 对 不 同 需求 























很 显然 ， 在 一 个 异常 处 理 语句 中 包 庄 多 行 代码 是 有 和 危险 的 。 首 先 ， 你 无 法 识 
别 出 究 竟 是 哪 行 代码 抛 出 了 异常 。 其 次 ， 如 果 出 于 某 种 原因 ， 某 个 页 面 没有 


标题 ， 却 有 “编辑 ”按钮 ， 那 么 由 于 前 面 已 经 发 生 异 常 ， 后 面 的 “编辑 ” 按 
钮 链接 就 不 会 出 现 。 但 是 ， 这 种 按照 网 站 上 信息 出 现 的 可 能 性 高 低 进行 排序 
的 方法 对 许多 网 站 都 是 可 行 的 ， 偶 尔 会 丢失 一 点 儿 数 据 ， 只 要 保存 详细 的 日 





志 就 不 是 什么 问题 了 。 








你 可 能 注意 到 了 ， 在 到 目前 为 止 的 所 有 例子 中 ， 我 们 都 没有 “收集 ”那些 “打印 ”出 来 的 
数据 。 显 然 ， 命 令 行 里 显示 的 数据 是 很 难 进一步 处 理 的 。 我 们 将 在 第 5 章 继续 介绍 信息 存 





储 和 数据 库 创 建 的 相关 内 容 。 
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处 理 重 定向 

重 定向 使 得 Web 服务 器 可 以 将 一 个 域名 或 者 URL 指向 不 同位 置 的 内 容 。 重 定向 有 两 
种 类 型 ; 

服务 器 端 重 定向 ， 在 页 面 加 载 之 前 URL 就 会 发 生 改 变 ; 

客户 端 重 定向 ， 有 时 我 们 可 以 看 到 “页 面 将 在 10 秒 钟 内 跳 转 ”这 类 消息 ， 这 里 页 

面 在 跳 转 到 新 页 面 之 前 已 经 加 载 。 
对 于 服务 器 详 重 定向 ， 你 通常 不 需要 担心 。 如 果 你 使 用 的 是 Python 3.x 的 urllib 库 的 
话 ， 它 可 以 自动 处 理 重 定向 问题 | 如 果 你 使 用 的 是 requests 库 的 话 ， 需 要 将 允许 重 定 
向 的 标志 设置 为 True: 





r = requests.get('http://github.com', allow_redirects=True) 
需要 注意 的 是 ， 有 时 候 你 抓 取 的 页 面 的 URL 可 能 不 是 你 进入 该 页 面 的 URL。 


更 多 关于 (通过 JavaScript 或 者 HTML 实现 的 ) 客户 端 重 定向 的 信息 ， 可 以 参考 第 12 章 。 


3.3 ”在 互联 网 上 抓 取 

每 次 我 做 有 关 网 页 抓 取 的 演讲 ， 总 会 有 人 问 我 :“ 你 怎么 创建 谷歌 网 站 ? ”我 的 通 
会 包含 两 点 :“ 首 先 ， 你 得 有 几 十 亿美 元 ， 买 得 起 世界 上 最 大 的 数据 仓库 ， 并 把 它们 隐秘 
地 放 在 世界 各 地 。 甚 次， 你 得 写 一 个 网 络 谎 虫 。 











回 
下 
给 











谷歌 在 1994 年 成 立 的 时 候 ， 就 是 两 名 斯 坦 福 大 学 毕业 生 使 用 一 台 陈 旧 的 服务 器 和 一 个 
Python 网 络 朴 虫 。 既 然 你 已 经 知道 如 何 抓 取 网 页 了 ， 那 么 你 已 经 正式 拥有 了 成 为 下 一 个 科 
技 亿 万 富翁 所 需 的 工具 了 ! 


严肃 地 说 ， 网 络 扑 虫 驱 动 着 许多 现代 Web 技术 ， 你 不 一 定 需要 一 个 大 型 数据 仓库 来 使 用 它 
们 。 要 实现 任何 跨 站 的 数据 分 析 ， 你 确实 需要 构建 出 可 以 解析 并 存储 互联 网 上 无 数 网 页 中 
的 数据 的 扑 虫 。 








就 像 前 一 个 例子 一 样 ， 你 将 创建 的 网 络 疏 虫 也 是 顺 着 链接 从 一 个 页 面 跳 到 另 一 个 页 面 ， 绘 
制 出 一 张 Web 地 图 。 但 是 这 一 次 ， 它 们 不 再 忽略 外 链 ， 而 是 跟着 外 链 跳 转 。 





不 知 前 方 水 深浅 

下 一 节 的 代码 可 以 到 达 互 联网 的 任何 位 置 。 如 果 我 们 从 “维基 百科 六 度 分 隔 
理论 ”中 学 到 了 什么 ， 那 便 是 完全 有 可 能 从 一 个 像 芝 麻 街 那 样 的 网 站 ， 经 过 
几 跳 就 到 达 某 个 非 主流 网 站 。 
如 果 读 者 是 小 朋友 ， 请 在 运行 代码 前 咨询 一 下 爸 妈 。 如 果 法 律 或 者 宗教 禁止 
你 浏览 某 个 网 站 的 内 容 ， 那 么 你 可 以 阅读 代码 示例 ， 但 是 运行 代码 的 时 候 请 
格外 小 心 。 
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Wu 
中 
小 





在 你 编写 朴 虫 跟随 外 链 跳 转 之 前 ， 请 癌 自 己 几 个 问题 。 





。 我 要 收集 哪些 数据 ? 数据 收集 可 以 通过 抓 取 几 个 预定 义 的 网 站 〈 永 远 是 最 简单 的 做 法 ) 
完成 吗 ?或 者 我 的 稚 虫 需要 能 够 发 现 那 些 我 可 能 不 知道 的 网 站 吗 ? 

。 当 我 的 限 虫 到 达 某 个 网 站 ， 它 是 立即 顺 着 下 一 个 出 站 链接 跳 到 一 个 新 网 站 ， 还 是 在 网 站 
上 停留 一 会 儿 ， 深入 抓 取 网 站 的 内 容 ? 

。 有 设 有 我 不 想 抓 取 的 一 类 网 站 ? 我 对 非 英文 网 站 的 内 容 感 兴趣 吗 ? 

。 如 果 我 的 网 络 仆 虫 引起 了 某 个 网 站 管理 员 的 怀疑 ， 我 如 何 避 免 承 担 法 律 责任 ? (关于 这 
个 问题 的 更 多 信息 ， 请 参考 第 18 章 。) 














将 几 个 灵活 的 Python 函数 组 合 起 来 就 可 以 实现 不 同类 型 的 网 络 扑 虫 ， 用 不 超过 60 行 代码 
就 可 轻松 地 写 出 来 : 


from urllib.request import urlopen 
from urllib.parse import urlparse 
from bs4 import BeautifulSoup 
import re 

import datetime 

import random 


pages = set() 
random. seed(datetime.datetime.now()) 





# 获取 页 面 中 所 有 内 链 的 列表 
def getInternaLLinks(bs，incLudeUrL) : 
incLudeUrL = '{}://{}' .format(urLparse(incLudeUrL) .scheme， 
uUrLparse(incLudeUrL) .nettLoc) 
internalLinks = [] 
# 找 出 所 有 以 "/" 开 头 的 链接 
for link in bs.find_all('a', 
href=re.compile('^(/|.*'+includeUrl+' )')): 
if link.attrs['href'] is not None: 
if link.attrs['href'] not in internalLinks: 
if(link.attrs['href'].startswith('/')): 
internalLinks.append( 
includeUrl+link.attrs['href']) 

















else: 
internalLinks.append(link.attrs['href']) 
return internalLinks 


# 获取 页 面 中 所 有 外 链 的 列表 
def getExternaLLinks(bs，excLudeUrL) : 
externalLinks = [] 
# 找 出 所 有 以 "http" 或 "www" 开 头 且 不 包含 当前 URL 的 链接 
for Link in bs.find_all('a', 
href=re.compile('^(http|www)((?!'+excludeUrl+').)*$')): 
if link.attrs['href'] is not None: 
if link.attrs['href'] not in externaLLinks : 
externalLinks.append(link.attrs['href']) 
return externaLLinks 
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def getRandomExternalLink(startingPage): 

htmL = UrLopen(startingPage) 

bs = BeautifulSoup(html, "htmL.parser ') 

externaLLinks = getExternaLLinks(bs ， 
urlparse(startingPage).netloc) 

if len(externalLinks) == 0: 
print('No external links, looking around the site for one') 
domain = '{}://{}'.format(urlparse(startingPage).scheme, 

urlparse(startingpPage).netloc) 
internalLinks = getInternalLinks(bs, domain) 
return getRandomExternalLink(internalLinks[random.randint(0, 
len(internalLinks)-1)]) 

else: 

return externalLinks[random.randint(0, len(externalLinks)-1)] 


def followExternalOnly(startingSite): 
externalLink = getRandomExternalLink(startingSite) 
print('Random external link is: {}'.format(externalLink)) 
followExternalOnly(externalLink) 
followExternalOnly('http://oreilly.com') 








上 面 这 个 程序 从 http://oreilly.com 开始 ， 随 机 地 从 一 个 外 链 跳 到 另 一 个 外 链 。 输 出 的 结果 如 
下 所 示 : 














http://igniteshow.com/ 

http://feeds.feedburner .com/oreilly/news 
http://hire.jobvite.com/CompanyJobs/Careers.aspx?c=q319 
http://makerfaire.com/ 





在 网 站 首页 上 并 不 总 是 能 发 现 外 链 。 这 时 ， 为 了 找到 外 链 ， 就 需要 用 一 种 类 似 于 前 面 例子 
中 使 用 的 抓 取 方 法 的 方法 ， 递 归 地 深入 一 个 网 站 ， 直 到 找到 一 个 外 链 为 止 。 








图 3-1 把 程序 操作 可 视 化 成 了 一 个 流程 图 。 


获取 页 面 上 的 
所 有 外 链 


























返回 一 个 
随机 外 链 








进入 页 面 上 的 
一 个 内 链 


图 3-1: 从 互联 网 的 网 站 上 抓 取 外 链 的 程序 流程 图 














不 要 把 示例 程序 放 进 产品 代码 

为 了 节省 空间 以 及 保证 可 读 性 ， 书 中 的 示例 程序 不 一 定 包含 真实 产品 代码 中 
必须 有 的 检查 和 异常 处 理 。 例 如 ， 如 果 在 抓 取 的 网 站 里 一 个 外 链 都 没有 找到 
(虽然 不 太 可 能 ， 但 是 如 果 程 序 运行 的 时 候 够 长 ， 总 会 遇 到 这 种 情况 )， 程 序 
会 一 直 运 行 ， 直 到 达到 Python 的 递归 限制 为 止 。 

一 种 增强 爬虫 稳健 性 的 方法 ， 是 将 其 和 第 1 章 中 介绍 的 处 理 网 络 连接 异常 的 
代码 结合 起 来 。 这 样 ， 当 出 现 HTTP 错误 或 者 服务 器 异常 时 ， 代 码 就 可 以 选 
择 一 个 不 同 的 URL。 

在 以 任何 严肃 的 目的 运行 代码 之 前 ， 请 确认 你 已 经 在 可 能 出 现 问 题 的 地 方 都 
放置 了 检查 语句 。 






































把 任务 分 解 成 像 “ 获 取 页 面 上 所 有 外 链 ” 这 样 的 小 函数 的 好 处 是 ， 以 后 可 以 方便 地 重 构 代 
码 ， 以 满足 另 一 个 抓 取 任务 的 需求 。 例 如 ， 如 有 果 你 的 目标 是 抓 取 一 个 网 站 中 所 有 的 外 链 并 
且 逐 一 记录 下 来 ， 你 可 以 增加 下 面 的 函数 : 











# 收 集 在 网 站 上 发 现 的 所 有 外 链 列表 
allExtLinks = set() 
aLLIntLinks = set() 


def getALLExternaLLinks(siteUrtL) : 
html = urlopen(siteUr1) 
domain = '{}://{}'.format(urlparse(siteUrl).scheme, 
urlparse(siteUrl).netloc) 
bs = BeautifulSoup(html, 'html.parser') 
internalLinks = getInternalLinks(bs, domain) 
externalLinks = getExternalLinks(bs, domain) 


for link in externalLinks: 
if link not in allExtLinks: 
allExtLinks.add(link) 
print(Link) 
for Link in internalLinks: 
if Link not in aLLIntLinks : 
allIntLinks.add(link) 
getALLExternaLLinks(Link) 


allIntLinks.add('http://oreilly.com') 
getAllExternalLinks('http://oreilly.com') 


可 以 将 这 段 代 码 视 为 共同 协作 的 两 个 循环 ， 一 个 是 收集 内 链 ， 一 个 是 收集 外 链 。 程 序 的 流 
程 如 图 3-2 所 示 。 
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获取 页 面 上 的 
所 有 内 链 





获取 页 面 上 的 
所 有 外 链 了 


不 加 入 列表 












| 


加 入 列表 






加 入 列表 
重复 运行 





图 3-2: 收集 内 链 和 外 链 的 程序 流程 图 








写 代码 之 前 拟 个 大 纲 或 画 个 流程 图 


是 个 很 好 的 编程 习惯 ,这 么 做 不 仅 可 以 为 后 期 处 型 























很 多 时 间 ， 更 重要 的 是 可 以 防止 自己 在 疏 虫 变 得 越 来 越 复杂 时 乱 了 分 寸 。 


区 








第 4 章 


网 络 拒 虫 模型 





即使 你 能 掌控 数据 和 输入 ， 编 写 和 干净、 可 扩展 的 代码 也 是 很 难 的 。 而 编写 网 络 仆 虫 代码 
时 ， 需 要 抓 取 并 存储 来 自 多 组 网 站 的 各 种 各 样 的 数据 ， 而 且 这 些 数据 是 程序 员 无 法 控制 
的 ， 这 就 带 来 了 独特 的 组 织 挑战 。 





你 可 能 被 要 求 从 多 个 网 站 抓 取 新 闻 文 章 或 者 博客 文章 ， 而 这 些 网 站 的 模板 和 布局 各 不 相 
同 。 一 个 网 站 的 hi 标签 包含 文章 的 标题 ， 另 外 一 个 网 站 的 hi 标签 包含 网 站 本 身 的 标题 ， 
而 文章 的 标题 则 在 <span id="titte"> 中 。 


你 可 能 需要 灵活 地 控制 要 抓 取 哪些 网 站 以 及 如 何 抓 取 ， 还 需要 一 种 在 不 需要 编写 很 多 代码 
的 情况 下 ， 尽 可 能 快 地 添加 新 网 站 或 者 修改 已 有 网 站 的 方法 。 











你 可 能 被 要 求 从 不 同 的 网 站 抓 取 产品 价格 ， 最 终 实现 对 同一 产品 的 价格 比较 。 可 能 这 些 价格 

不 同 货币 形式 的 ， 可 能 你 还 需要 将 这 些 数据 和 来 自 某 种 左 Web 来 源 的 外 部 数据 合并 起 来 。 
管 网 络 仆 虫 的 应 用 几乎 是 无 止 尽 的 ,但 大 型 、 可 扩展 的 仆 虫 往往 分 为 儿 种 模式 。 通 过 学 
习 这 些 模式 并 识别 它们 适用 的 情境 ， 你 可 以 大 幅 改善 你 的 网 络 仆 虫 的 可 维护 性 和 稳健 性 。 








本 章 重 点 介绍 从 各 种 网 站 收集 少数 几 种 “类 型 ”的 数据 (例如 餐馆 评论 ， 新 闻 、 公 司 次 
0 
4.1 规划 和 定义 对 象 


网 页 抓 取 过 程 中 的 一 个 常见 陷阱 ， 是 完全 基于 眼前 可 见 的 内 容 定义 自己 希望 抓 取 的 数据 。 
例如 ， 如 果 你 想 抓 取 产 品 数据 ， 可 能 首先 查看 服装 店 并 且 确 定 你 抓 取 的 每 种 产品 需要 具有 
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以 下 字段 ， 


。 产品 名 称 

。 价格 

。 描述 

， 尺寸 

。 颜色 

。 面料 类 型 

顾客 评分 

而 查看 另外 一 个 网 站 时 ， 你 发 现 该 网 站 的 网 页 上 列 出 了 SKU 值 (库存 单元 ， 用 于 跟踪 和 


预订 商品 )。 你 希望 同时 抓 取 这 个 数据 ， 即 便 该 数据 并 未 出 现在 你 抓 取 的 第 一 个 网 站 上 ! 
于 是 你 加 上 这 个 字段 : 











。 SKU 项 


尽管 服装 可 能 是 一 个 不 错 的 开始 ， 但 你 还 希望 该 疏 虫 可 以 扩展 到 其 他 类 型 的 产品 上 。 你 开 
始 浏览 其 他 网 站 的 产品 部 分 ， 并 且 确 定 你 还 需要 抓 取 以 下 信息 : 


。 精装 /平装 

。 星光 印刷 / 光 面 印刷 
。 顾客 评价 数量 

。 生产 商 的 链接 


很 明显 ， 这 是 一 种 不 可 持续 的 方法 。 每 次 在 一 个 网 站 上 看 到 一 条 新 信息 就 给 你 的 产品 类 型 
添加 属性 ， 这 会 导致 需要 跟踪 太 多 的 字段 。 不 仅 如 此 ， 每 次 你 抓 取 一 个 新 的 网 站 ， 都 得 对 
该 网 站 拥有 的 字段 以 及 你 已 经 积累 的 字段 做 详尽 的 分 析 ， 以 增加 新 的 字段 ( 即 更 改 Python 
对 象 类 型 以 及 数据 库 结 构 )。 这 样 得 到 的 结果 可 能 是 一 个 杂乱 的 、 很 难 读 的 数据 集 ， 从 而 
造成 使 用 困难 。 















































当 决 定 抓 取 哪些 数据 时 ， 最 好 的 做 法 是 忽视 所 有 的 网 站 。 当 你 启动 一 个 可 扩展 的 大 型 项 目 
时 ， 不 是 首先 查看 单个 网 站 并 且 问 “存在 什么 ?“， 而 是 要 自问 “我 需要 什么 ?“， 然 后 想 
方 设 法 从 中 寻找 所 需 信 息 。 


可 能 你 真正 需要 做 的 就 是 比较 多 个 商店 的 产品 价格 ， 并 且 追 踪 这 些 价格 的 变化 。 这 种 情况 
下 ， 你 需要 足够 的 信息 来 唯一 地 识别 各 个 产品 ， 就 是 这 么 简单 。 
。 产品 名 称 


。 制造 商 
。 产品 IJD 号 (如果 可 以 获得 或 者 相关 的 话 ) 











值得 注意 的 一 点 是 ， 以 上 这 些 信息 并 不 特定 于 茶 一 商店 。 例 如 ， 产 品评 论 、 评 分 、 价 格 ， 
其 至 描述 都 是 针对 特定 商店 的 特定 产品 的 。 这 些 信息 可 以 单独 保存 。 


其 他 信息 (产品 的 颜色 、 材 质 ) 是 特定 于 产品 的 ， 但 是 可 能 很 稀 路 ， 因 为 并 不 是 所 有 产品 
都 有 这 个 信息 。 所 以 我 们 需要 后 退 一 步 ， 对 你 考虑 的 每 一 项 都 做 一 个 清单 检查 ， 然 后 问 自 
己 以 下 儿 个 问题 。 


























。 这 个 信息 可 以 帮助 项 目 实现 目标 吗 ? 如 果 我 不 包括 该 信息 ， 是 否 会 造成 阻碍 ?还 是 说 i 
信息 有 了 固然 好 ， 但 是 并 不 会 影响 任何 结果 ? 

。 如 果 该 信息 将 来 可 能 有 帮助 ， 但 是 我 并 不 确定 ， 那 么 晚 些 时 候 再 抓 取 会 有 多 大 的 困难 ? 

。 这 个 数据 对 于 我 已 经 抓 取 的 信息 来 说 是 否 元 余 ? 

。 将 数据 存储 在 这 个 对 象 中 是 否 符合 逻辑 ? (正如 前 面 提 到 的 ， 如 果 同 一 产品 在 不 同 网 站 
上 的 描述 不 一 致 的 话 ， 那 么 存储 该 产品 的 描述 信息 就 没有 意义 。) 


如 果 你 确定 需要 抓 取 该 数据 ， 那 么 就 要 问 自己 以 下 问题 ， 然 后 确定 如 何在 代码 中 存储 并 处 
理 这 些 数据 。 


NS 
























































。 该 数据 是 稀疏 的 还 是 密集 的 ? 它 与 每 个 清单 都 相关 并 且 会 出 现在 其 中 ， 还 是 只 与 部 分 清 
单 相关 ? 

。 该 数据 有 多 大 ? 

。 在 数据 较 大 的 情况 下 ， 我 每 次 运行 分 析 时 都 需要 检索 该 数据 ， 还 是 只 是 偶尔 需要 使 用 该 
数据 ? 

。 这 种 类 型 的 数据 有 多 大 的 变化 性 ?我 需要 经 常 加 入 新 的 属性 、 修 改 类 型 (例如 面料 样式 
可 能 是 经 常 修改 的 属性 ) 吗 ? 还 是 说 该 数据 一 直 保持 不 变 〈 鞋 的 码 数 ) ? 


假如 你 计划 对 产品 属性 和 价格 做 一 些 元 数据 分 析 ， 例 如 书 的 页 码 ， 或 者 布 的 面料 ， 或 者 将 
来 一 些 与 价格 相关 的 其 他 属性 。 你 一 一 探查 上 述 问题 ， 发 现 数据 是 稀 政 的 ( 仅 有 少数 产品 
有 这 些 属性 之 一 ) ， 因 此 你 可 能 决定 经 常 增加 或 者 移 除 部 分 属性 。 这 样 的 话 ， 创 建 一 个 如 
下 所 示 的 产品 类 型 可 能 比较 合理 ， 


。 产品 名 称 

。 制造 商 

。 产品 ID (如 果 可 以 获得 /相关 ) 
。 属性 (可 选 列表 或 字典 ) 
















































































属性 类 型 如 下 所 示 : 


。 属性 名 称 
。 属性 值 





这 样 ， 你 就 可 以 灵活 地 添加 新 的 产品 属性 ， 而 不 需要 重新 设计 数据 模式 或 者 重 写 代码 。 当 
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决定 好 如 何在 数据 库 中 存储 这 些 属性 后 ， 你 可 以 在 JSON 中 编写 attribute 字段 ， 或 者 将 
每 个 属性 与 产品 卫 一 起 存在 一 个 单独 的 表格 中 。 关 于 实现 这 些 类 型 的 数据 库 模 型 的 更 多 
信息 ， 可 以 查看 第 6 章 











你 也 可 以 将 上 述 问题 用 于 其 他 需要 存储 的 数据 。 为 了 跟踪 每 个 产品 的 价格 ， 你 可 能 需要 以 
下 字段 


。 产品 ID 
。 商店 ID 
。 价格 

。 价格 的 日 期 /时 间 惟 


但 是 如 果 产 品 的 属性 修改 了 产品 的 价格 ， 怎 么 办 ? 例如 ， 商 店 中 大 衬衫 的 价格 可 能 比 小 衬 
衫 高 ， 因 为 大 衬衫 需要 更 多 的 劳动 或 材料 。 在 这 种 情况 下 ， 你 可 以 考虑 将 每 个 尺码 的 衬衫 
产品 拆 分 成 单独 的 产品 列表 这样 每 个 衬衫 产品 可 以 单独 定价 )， 或 者 创建 一 个 新 的 项 目 
类 型 来 存储 产品 实例 的 相关 信息 ， 并 包含 以 下 字段 : 

















。 产品 ID 
。 实例 类 型 (这 里 是 衬衫 的 尺码 ) 








而 每 个 价格 应 该 如 下 所 示 : 


。 产品 实例 ID 

。 商店 ID 

。 价格 

。 价格 的 日 期 /时间 惟 


尽管 这 里 “产品 和 价格 ”这 个 主题 可 能 看 起 来 过 于 具体 ， 但 你 需要 问 自己 的 基本 问题 ， 以 
及 设计 Python 对 象 时 的 逻辑 ， 几 乎 适用 于 所 有 情境 。 








如 果 你 抓 取 新 闻 文 章 ， 可 能 需要 以 下 基本 信息 : 


。 标题 
， 作 者 
日 期 
内 容 


但 是 有 些 文章 还 包含 “修改 日 期 ” “相关 文章 ”或 者 “社交 媒体 分 享 次 数 ”"。 你 需要 这 些 信 
息 吗 ? 这 些 信息 和 你 的 项 目 相关 吗 ? 如 果 不 是 所 有 的 新 闻 网 站 都 使 用 所 有 形式 的 社交 媒 
体 ， 并 且 社 交 媒 体 网 站 可 能 随 着 时 间 的 推移 变 得 更 加 流行 或 不 再 流行 ， 那 么 你 如 何 高 效 而 
灵活 地 存储 社交 媒体 分 享 次 数 ? 
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当面 临 一 个 新 的 项 目 时 ， 很 容易 立马 开始 写 Python 代码 来 抓 取 网 站 。 而 数据 模型 通常 是 后 
面 考 虑 的 内 容 ， 并 且 通 常会 被 你 抓 取 的 第 一 个 网 站 的 数据 可 用 性 和 数据 格式 所 影响 。 


但 是 数据 模型 是 所 有 代码 的 基础 。 模 型 中 糟糕 的 决定 很 容易 导致 代码 编写 和 维护 的 问题 ， 
或 者 导致 难以 抽取 和 高 效 地 使 用 数据 。 特 别 是 当 你 处 理 很 多 类 型 的 网 站 (包括 已 知 的 和 未 
知 的 ) 时 ， 认 真 思考 并 规划 你 究竟 需要 抓 取 什么 以 及 如 何 存 储 变 得 非常 关键 。 


4.2 ”处 理 不 同 的 网 站 布局 


类 似 Google 这 样 的 搜索 引擎 ， 最 大 的 优点 之 一 就 是 能 够 从 大 量 的 网 站 中 抽取 相关 和 有 用 
的 数据 ， 而 不 需要 具备 关于 网 站 结构 本 身 的 知识 。 尽 管 我 们 人 类 可 以 立刻 识别 出 页 面 的 标 
题 和 主要 内 容 《设计 非常 糟糕 的 网 站 除外 ) ， 但 机 器 完成 这 项 任务 却 非 常 困难 。 


幸运 的 是 ， 在 大 多 数 网 页 抓 取 任 务 中 ， 你 不 会 去 抓 取 你 从 未 见 过 的 网 站 ， 而 是 从 一 些 人 为 
预选 的 网 站 中 抓 取 。 这 就 意味 着 你 不 需要 使 用 复杂 的 算法 或 者 机 器 学 习 去 识别 页 面 上 的 哪 
段 文字 看 起 来 “最 像 标 题 ” 或 者 可 能 是 “主要 内 容 ”。 你 可 以 手动 确定 网 页 上 的 各 个 元 素 。 


最 显而易见 的 方法 是 ， 为 每 个 网 站 单独 编写 一 个 网 络 谎 虫 或 者 页 面 解析 右 。 每 个 肘 虫 或 解析 
器 以 一 个 URL、 字 符 串 或 者 Beautifulsoup 对 象 作为 输入 ， 并 返回 一 个 抓 取 的 Python 对象。 



















































































以 下 是 一 个 Content 类 的 示例 (代表 网 站 上 的 一 块 内 容 ， 如 新 闻 文 章 )， 其 中 两 个 抓 取 器 函 
数 以 Beautifulsoup 对 象 作 为 输入 ， 返 回 一 个 Content 实例 : 











import requests 


class Content : 
def _ init (self, url, title, body): 
self.url = url 
self.title = title 
self.body = body 


def getPage(url): 
req = requests.get(url) 
return BeautifulSoup(req.text, 'html.parser') 


def scrapeNYTimes(urL) : 
bs = getPage(url) 
title = bs.find("h1").text 
lines = bs.find all("p", {"class":"story-content"}) 
body = '\n'.join([line.text for line in lines]) 
return Content(url, title, body) 


def scrapeBrookings(url): 
bs = getPage(url) 
title = bs.find("h1").text 
body = bs.find("div",{"class","post-body"}).text 
return Content(url, title, body) 
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url = "https://www.brookings.edu/bLog/future-deveLopment' 
'/2018/01/26/delivering-inclusive-urban-access-3-unc' 
'omfortable-truths/' 

content = scrapeBrookings(uyrl) 

print('Title: {}'.format(content.title)) 

print('URL: {}\n'.format(content.url)) 

print(content.body) 


url = 'https://www.nytimes.com/2018/01/25/o0pinion/sunday/' 
'silicon-valley-immortality.html" 

content = scrapeNYTimes(url) 

print('Title: {}'.format(content.title)) 

print('URL: {}\n'.format(content.url)) 

print(content.body) 


当 你 为 额外 的 新 闻 网 站 添加 抓 取 器 函数 时 ， 可 能 会 发 现存 在 一 种 模式 。 每 个 网 站 的 解析 函 


数 基本 上 在 做 同样 的 事情 : 


。 选择 标题 元 素 并 从 标题 中 抽取 文本 

。 选择 文章 的 主要 内 容 

。 按 需 选择 其 他 内 容 项 

。 返回 此 前 由 字符 串 实例 化 的 Content 对 象 











本 





这 里 唯一 与 网 站 相关 的 变量 是 用 于 获取 信息 的 CSS 选择 器 。BeautifulSoup 的 find 和 find_ 
all 国 数 需 要 两 个 输入 参数 一 一 一 个 标签 字符 串 和 一 个 带 有 键 / 值 属性 的 字典 ， 这 样 你 可 








以 传递 这 两 个 参数 来 定义 网 站 本 身 的 结构 以 及 目标 数据 的 位 置 。 


为 了 更 简便 ， 你 可 以 不 处 理 所 有 的 标签 参数 和 键 / 值 对 ， 
BeautifulSoup 的 select 国 数 选 定 你 希望 抓 取 的 信息 ， 并 且 将 这 到 
象 中 。 





class Content : 


所 有 文章 /网 页 的 共同 基 类 


def _ init (self, url, title, body): 
self.url = url 
self.title = title 
self.body = body 


de 


下 


print(self): 


用 灵活 的 打印 函数 控制 结果 


print("URL: {}".format(self.url)) 
print("TITLE: {}".format(self.title)) 
print("BODY:\n{}".format(self.body)) 


用 单个 CSS 选择 器 使 用 
先 择 器 放 入 到 一 个 字典 对 








4 章 


人 
CN 
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CLass Website: 


描述 网 站 结构 的 信息 


def _ init (self, name, url, titleTag, bodyTag): 
self.name = name 
self.url = url 
self.titleTag = titleTag 
self.bodyTag = bodyTag 


注意 ， 这 里 Website 类 并 不 存储 任何 从 页 面 本 身 抓 取 的 信息 ， 而 是 存储 关于 如 何 抓 取 数 据 
的 指令 。 它 也 不 存储 “My Page Title” 这样 的 标题 。 它 只 会 存储 字符 串 标 签 ht， 表 明了 在 
哪里 可 以 找到 标题 。 这 就 是 这 个 类 被 命名 为 ebsite ( 它 包 含 适用 于 整个 网 站 的 信息 ) 而 
不 是 Content ( 它 包含 来 自 单个 网 页 的 信息 ) 的 原因 。 














使 用 这 些 Content 类 和 Website 类 ， 你 就 可 以 编写 一 个 crawler 去 抓 取 任 何 网 站 的 任何 网 
页 的 标题 和 内 容 : 








import requests 
from bs4 import BeautifulSoup 


class Crawler: 


def getPage(self, url): 
try: 
req = requests.get(url) 
except requests.exceptions.RequestException: 
return None 
return BeautifulSoup(req.text, 'html.parser') 


def safeGet(self, page0bj, selector): 
用 于 从 一 个 BeautifuLSoup 对 象 和 一 个 选择 器 获取 内 容 的 辅助 函数 。 
如 果 选 择 器 没有 找到 对 象 ， 就 返回 空 字符 捉 
































selectedElems = page0bj.seLect(seLector) 

if selectedElems is not None and len(selectedElems) > 0: 
return '\n'.join( 
[elem.get text() for elem in selectedElems]) 

return '" 


def parse(self, site, url): 


从 指定 URL 提 取 内 容 

bs = self.getPage(url) 

if bs is not None: 
title = self.safeGet(bs, site.titleTag) 
body = self.safeGet(bs, site.bodyTag) 
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if title != '' and body != "': 
content = Content(url, title, body) 
content.print() 


以 下 代码 定义 了 网 站 对 象 并 开启 了 流程 : 





crawler = Crawler() 


siteData = [ 
['O\'Reilly Media', 'http://oreilly.com', 
'h1', 'section#product-description'], 
['Reuters', 'http://reuters.com', 'h1', 
'div.StandardArticleBody_body_1gnLA'], 
['Brookings', 'http://www.brookings.edu', 
'h1', 'div.post-body'], 
['New York Times', 'http://nytimes.com', 
'h1', 'p.story-content'] 

] 

websites = [] 

for row in siteData: 
websites.append(Website(row[0], row[1], row[2], row[3])) 


crawler .parse(websites[0], 'http://shop.oreilly.com/product/'\ 
'0636920028154.do') 

crawler.parse(websites[1], 'http://www.reuters.com/article/'\ 
'Us-Uusa-epa-pruitt-idUSKBN19W2D0') 

crawler.parse(websites[2], 'https://www.brookings.edu/blog/'\ 
'techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/') 

crawler .parse(websites[3], 'https://www.nytimes.com/2018/01/'\ 
'28/business/energy-environment/oil-boom.html') 














尽管 这 个 方法 乍 看 起 来 并 不 比 为 每 个 新 的 网 站 编写 一 个 新 的 Python 函数 简单 多 少 ， 
象 一 下 ， 如 果 你 的 系统 从 抓 取 4 个 网 站 变 成 抓 取 20 个 甚至 200 个 网 站 ,会 发 生 什 么 。 





日 是 想 


每 个 字符 串 列 表 写 起 来 相对 容易 ， 并 且 也 不 会 占用 太 多 空间 。 它 可 以 通过 一 个 数据 库 或 者 
CSV 文件 加 载 。 它 可 以 从 远程 源 导 入 ， 或 者 交 给 一 个 有 前 端 经 验 的 非 程序 员 来 填充 并 加 入 





新 的 网 站 ， 而 他 们 并 不 需要 阅读 代码 。 





当然 ， 不 足 之 处 是 你 牺牲 了 一 定 的 灵活 性 。 在 第 一 个 例子 中 ， 每 个 网 站 都 有 自己 的 函数 来 


选择 和 解析 HIML， 以 获取 最 终结 果 。 在 第 二 个 例子 中 ， 每 个 网 站 必须 具有 一 定 的 
即 特定 的 字段 必须 存在 ， 从 字段 取出 的 数据 必须 干净 ， 并 且 每 个 目标 字段 必须 有 唯 




















结构 ， 


且 可 





靠 的 CSS 选择 器 。 








但 是 我 相信 这 种 方法 的 强大 功能 和 灵活 性 足以 弥补 其 缺陷 。 下 一 节 将 介绍 这 一 基本 模板 的 
具体 应 用 和 扩展 ， 这 样 你 就 可 以 处 理 缺 失 的 字段 ， 抓 取 不 同类 型 的 数据 ， 仅 抓 取 网 站 的 特 
































定 部 分 ， 以 及 存储 更 复杂 的 页 面 信息 。 














4.3 结构 化 礁 虫 


如 有 果 你 还 需要 手动 定位 到 想 抓 取 的 每 个 链接 ， 那 么 创建 灵活 和 可 修改 的 网 站 布局 类 型 并 不 
会 带 来 多 大 的 好 处 。 上 一 章 介绍 了 自动 抓 取 网 站 和 发 现 新 页 面 的 各 种 方式 。 


这 一 市 将 介绍 如 何 将 这 些 方 法 应 用 于 结构 良好 的 、 可 扩展 的 网 站 候 虫 ， 以 自动 搜集 链接 和 
发 现 数据 。 本 闻 将 展示 3 种 基本 的 网 络 疏 虫 结构 ， 我 认为 它们 可 以 应 用 于 大 多 数 情形 ， 不 
过 你 在 抓 取 网 站 时 可 能 需要 做 一 些 改 动 。 如 果 你 磁 到 了 特殊 情形 ， 遇 到 了 抓 取 问 题 ， 我 也 
希望 你 能 借鉴 这 些 结构 来 设计 优雅 、 健 壮 的 仆 虫 。 























4.3.1 通过 搜索 抓 取 网 站 
抓 取 网 站 的 一 种 最 简单 的 方法 是 像 人 类 一 样 使 用 搜索 条 。 尽 管 在 网 站 上 搜索 关键 词 或 者 主 
题 并 收集 搜索 结果 的 过 程 ， 看 起 来 是 一 个 随 着 网 站 的 不 同 而 有 很 大 可 变性 的 任务 ， 但 有 几 
个 关键 点 使 得 这 个 任务 出 人 意料 地 容易 。 


大 多 数 网 站 通过 将 主题 作为 参数 在 URL 中 传递 ,来 获得 特定 主题 的 搜索 结果 列表 。 例如 ， 
http://example.com?search=myTopic。 这 个 URL 的 第 一 部 分 可 以 存 为 Website 对 象 的 一 
个 属性 ， 简 单 地 在 其 后 添加 主题 。 
。 在 搜索 后 ， 大 多 数 网 站 以 非常 好 识别 的 链接 列表 的 形式 呈现 结果 页 面 ， 通 常会 使 用 一 个 
如 <span class="result"> 的 标签 ,而 其 准确 的 形式 也 可 以 存 为 Website 对 象 的 一 个 属性 。 
。 每 个 结果 链接 要 么 是 一 个 相对 URL (例如 /articles/page.html) ,要 么 是 一 个 绝对 URL ( 例 
如 http://example.com/articles/page.html)。 不 管 是 相对 URL 还 是 绝对 URL， 你 都 可 以 将 
其 存 为 Nebsite 对 象 的 一 个 属性 。 
当 定 位 到 并 规范 化 搜索 页 面 的 URL 后 ， 你 就 成 功 地 将 问题 简化 为 上 一 节 示 例 中 的 问题 
了 一 一 抽取 给 定格 式 网 站 的 数据 。 


我 们 接 下 来 用 代码 实现 该 算法 。Content 类 和 前 面 例子 中 的 基本 一 样 。 你 需要 添加 URL 属 
性 来 跟踪 发 现 内 容 的 位 置 : 















































class Content: 


""" 所 有 文章 /网 页 的 共同 基 类 """ 

















def _ init (self, topic, url, title, body): 
self.topic = topic 
self.title = title 
self.body = body 
self.url = url 


de 


eo 


print(self): 














用 灵活 的 打印 函数 控制 结果 





print("New article found for topic: {}".format(self.topic)) 
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print("TITLE: {}".format(self.title)) 
print("BODY:\n{}".format(self.body)) 
print("URL: {}".format(self.url)) 


程序 中 的 Website 类 加 入 了 一 些 新 的 属性 。 如 果 你 附加 了 要 搜索 的 主题 ， 那 么 searchur1 





定义 了 可 以 在 哪里 获得 搜索 结果 。resuttListing 定义 了 存放 每 个 











结果 信息 的 “ 盒 


子 ”(box)， 而 resulturl 定义 了 这 个 盒子 中 的 标签 ， 这 些 标 签 即 为 结果 的 准确 URL。 
absoluteUrl 属性 是 一 个 布尔 值 ， 它 表示 搜索 结果 是 绝对 URL 还 是 相对 URL。 


class Website: 


""" 描 述 网 站 结构 的 信息 """ 


def _ init (self, name, url, searchUrl, resultListing, 
resultUrl, absoluteUrl, titleTag, bodyTag): 
self.name = name 
self.url = url 
seLf .searchUrL = searchurl 
self.resultListing = resultListing 
self.resultUrl = resuLtUrL 
seLf .absoLuteUrL=absoLuteUrt 
seLf .titLeTag = titleTag 
seLf .bodyTag = bodyTag 


crawlerpy 被 进一步 扩展 ， 它 包含 Website 数据 、 待 搜索 的 主题 列表 和 两 个 对 所 有 这 些 网 站 
和 主题 进行 迭代 的 循环 。 它 还 包括 一 个 search 函数 ， 该 函数 对 特定 网 站 和 主题 的 搜索 页 面 


进行 导航 ， 并 抽取 页 面 中 所 有 的 结果 URL。 


import requests 
from bs4 import BeautifulSoup 


class Crawler: 


def getPpage(self, url): 
try: 
req = requests.get(url) 
except requests.exceptions.RequestException: 
return None 
return BeautifulSoup(req.text, 'html.parser') 


def safeGet(self, pageO0bj, selector): 
child0bj = pageO0bj.select(selector) 
if chiLdobj is not None and len(child0bj) > 0: 
return chiLdobj[0].get_text() 
return "" 


def search(self, topic, site): 


根据 主题 搜索 网 站 并 记录 所 有 找到 的 页 面 

bs = self.getPage(site.searchUrl + topic) 
searchResults = bs.select(site.resultListing) 
for result in searchResults: 





url = resuLt.seLect(site.resuLtUrL)[0].attrs["href"] 
# 检查 一 下 是 相对 URL 还 是 绝对 URL 
if(site.absoLuteUrL ) : 
bs = seLf.getPage(CurL) 
else: 
bs = self.getPage(site.url + url) 
if bs is None: 
print("Something was wrong with that page or URL. Skipping!") 
return 
title = self.safeGet(bs, site.titleTag) 
body = self.safeGet(bs, site.bodyTag) 
if title != '' and body != '': 
content = Content(topic, title, body, url) 
content.print() 





crawler = Crawler() 


siteData = [ 

['O\'Reilly Media', 'http://oreilly.com', 
'https://ssearch.oreilly.com/?q=','article.product-result', 
'p.title a', True, 'h1i', 'section#product-description'], 

['Reuters', 'http://reuters.com', 
'http://www.reuters.com/search/news?blob="',， 
'div.search-result-content','h3.search-result-title a', 
False, 'h1i', 'div.StandardArticleBody_body_1gnLA'], 

['Brookings', 'http://www.brookings.edu', 
'https://www.brookings.edu/search/?s="',， 
'div.list-content article', 'h4.title a', True, 'hi', 
'div.post-body'] 

] 
sites = [] 
for row in siteData: 
sites.append(Website(row[0], row[1], row[2], 
row[3], row[4], row[5], row[6], row[7])) 
topics = ['python', 'data science'] 
for topic in topics: 

print("GETTING INFO ABOUT: " + topic) 

for targetSite in sites: 
crawler .search(topic, targetSite) 





上 述 代码 会 对 topics 列表 中 的 所 有 主题 进行 循环 ， 并 且 在 开始 抓 取 每 个 主题 之 前 会 先 做 
声明 : 


GETTING INFO ABOUT python 


然后 对 sites 列表 中 的 所 有 网 站 进行 循环 ， 抓 取 每 个 主题 的 每 个 特定 网 站 。 每 次 成 功 地 抓 
取 了 页 面 的 信息 后 ， 它 都 会 在 控制 台 打 印 如 下 信息 : 




















New article found for topic: python 

URL: http://example.com/examplepage.html 
TITLE: Page Title Here 

BODY: Body content is here 
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注意 ， 这 里 程序 是 对 所 有 的 主题 进行 循环 ， 然 后 在 内 循环 中 对 所 有 的 网 站 进行 循环 。 那 么 
为 什么 不 调换 位 置 呢 ， 即 从 一 个 网 站 抓 取 所 有 主题 后 ， 再 从 下 一 个 网 站 抓 取 所 有 主题 ? 先 
对 所 有 主题 进行 迭代 ， 对 任何 Web 服务 器 来 说 都 是 一 种 均衡 分 配 负载 的 做 法 。 如 有 果 你 有 上 
百 个 主题 和 几 十 个 网 站 ， 这 一 点 尤其 重要 。 你 不 会 对 一 个 网 站 一 次 性 发 起 上 万 个 请 求 ， 而 
是 发 起 10 个 请 求 ， 等 几 分 钟 后 再 发 起 10 个 请 求 ， 然 后 再 等 几 分 钟 ， 如 此 反复 。 












































尽管 两 种 做 法 最 终 的 请 求 次 数 是 一 样 的 ， 但 通常 还 是 最 好 将 这 些 请 求 合 理 地 分 配 在 不 同 的 
时 间 。 要 达到 这 个 目的 ， 一 种 简单 的 办 法 是 多 思考 如 何 构建 你 的 循环 。 





4.3.2 ”通过 链接 抓 取 网 站 








上 一 章 介绍 了 在 网 页 中 识别 内 链 和 外 链 ， 然 后 利用 这 些 链接 抓 取 网 站 的 一 些 方法 。 本 市 ， 
你 将 会 学 习 把 这 些 基本 方法 融合 到 一 个 更 灵活 的 网 站 扑 虫 中 ,该 仆 虫 可 以 跟踪 任意 遵循 特 





定 URL 模式 的 链接 。 


这 种 慌 虫 非常 适用 于 从 一 个 网 站 抓 取 所 有 数据 的 项 目 ， 而 不 适用 于 从 特定 搜索 结果 或 页 





列表 抓 取 数 据 的 项 目 。 它 还 非常 适用 于 网 站 页 画 











这 些 类 型 的 仆 虫 并 不 需要 像 上 一 市 通过 搜索 页 





法 ， 因 此 在 Website 对 象 中 不 需要 包含 描述 搜索 页 面 的 属性 。 但 是 由 于 座 虫 并 不 知道 待 寻 
找 的 链接 的 位 置 ， 所 以 你 需要 一 些 规则 来 告诉 它 选择 哪 种 页 




















组 织 得 很 精 糕 或 者 非常 分 散 的 情况 。 








面 进行 抓 取 中 采用 的 定位 链接 的 结构 化 方 














你 可 以 用 targetPattern 








HI。 





(目标 URL 的 正则 表达 式 ) 和 布尔 变量 absoluteUrl 来 达成 这 一 目标 : 


class Website: 


def _ init (self, name, url, targetPattern, absoluteUrl, 


titleTag, bodyTag): 
self.name = name 
self.url = url 


self.targetPattern = targetPattern 


seLf .absoLuteUrL=absoLuteUrtL 
seLf .titLeTag = titleTag 
seLf .bodyTag = bodyTag 


class Content : 
def _init (self, url, title, body): 
self.url = url 
self.title = title 
self.body = body 


de 


下 


print(self): 
print("URL: {}".format(self.url)) 


print("TITLE: {}".format(self.title)) 
print("BODY:\n{}".format(self.body)) 


Content 类 和 第 一 个 爬虫 例子 中 使 用 的 是 一 样 的 。 





Crawler 类 从 每 个 网 站 的 主页 开始 ， 定 位 内 链 ， 并 解析 在 每 个 内 链 页 面 发 现 的 内 容 : 
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import re 


class Crawler: 
def _ init (self, site): 
self.site = site 
self.visited = [] 


def getPage(self, url): 
try: 
req = requests.get(url) 
except requests.exceptions.RequestException: 
return None 
return BeautifulSoup(req.text, 'html.parser') 


def safeGet(self, page0bj, selector): 
selectedElems = page0bj.seLect(seLector) 
if selectedElems is not None and len(selectedElems) > 0: 
return '\n'.join([elem.get text() for 
elem in selectedElems]) 


11 


return 


def parse(self, url): 
bs = self.getPpage(url) 
if bs is not None: 
title = self.safeGet(bs, self.site.titleTag) 
body = self.safeGet(bs, self.site.bodyTag) 
if title != '' and body != '"': 
content = Content(url, title, body) 
content.print() 


def crawl(self): 


获取 网 站 主页 的 页 面 链 接 
bs = self.getPage(self.site.url) 
targetPages = bs.findAll('a', 
href=re.compile(self.site.targetPpattern)) 
for targetPage in targetPages : 
targetPage = targetPage.attrs['href'] 
if targetPage not in self.visited: 
seLf .visited.append(targetPage) 
if not self.site.absoluteUrl: 
targetpPage = '{}{}'.format(self.site.url, targetPage) 
self.parse(targetPage) 


reuters = Website('Reuters', 'https://www.reuters.com', '^(/article/)', False, 
'h1i', 'div.StandardArticleBody_body_1gnLA') 

crawler = Crawler(reuters) 

crawler .crawl() 


与 前 面 的 例子 相 比 ， 这 里 的 另外 一 个 变化 是 : Website 对 象 【〔 在 这 个 例子 中 是 变量 reuters) 
是 Crawler 对 象 本 身 的 一 个 属性 。 这 样 做 的 作用 是 将 已 访问 过 的 页 面 存储 在 仆 虫 中 ,但 是 
也 意味 着 必须 针对 每 个 网 站 实例 化 一 个 新 的 候 虫 ， 而 不 是 重用 一 个 仆 虫 去 抓 取 网 站 列表 。 
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不 管 你 是 选择 一 个 与 网 站 无 关 的 仆 虫 ， 还 是 将 网 站 作为 假 虫 的 一 个 属性 ， 这 都 是 一 个 需要 
根据 自身 需求 进行 权衡 的 决定 。 两 种 方法 在 功能 实现 上 都 是 没有 问题 的 。 


另外 需要 注意 的 是 ， 这 个 爬虫 会 从 主页 开始 抓 取 ， 但 是 在 所 有 页 面 都 被 记录 后 ， 就 不 会 继 
续 抓 取 了 。 你 可 能 希望 编写 一 个 候 虫 ， 将 第 3 章 中 介绍 的 某 种 模式 融合 进来 ， 然 后 查看 所 
访问 的 每 个 页 面 中 更 多 的 目标 URL。 你 其 至 还 可 以 跟踪 每 个 页 面 中 涉及 的 所 有 URL (不 
仅仅 是 匹配 目标 模式 的 URL)， 然 后 查看 这 些 URL 是 否 包含 目标 模式 。 
































4.3.3” 抓 取 多 种 类 型 的 页 面 
与 抓 取 预 定义 好 的 页 面 集合 不 同 ， 抓 取 一 个 网 站 的 所 有 内 链 会 带 来 一 个 挑战 ， 即 你 不 知道 
会 获得 什么 。 好 在 有 几 种 基本 的 方法 可 以 识别 页 面 类 型 。 











通过 URL 
一 个 网 站 中 所 有 的 博客 文章 可 能 都 会 包含 一 个 URL (例如 http://example.com/blog/title- 
of-post) 。 


通过 网 站 中 存在 或 者 缺失 的 特定 字段 
如 有 果 一 个 页 面包 含 日 期 ,但 是 不 包含 作者 名 字 ， 那 你 可 以 将 其 归 类 为 新 闻 稿 。 如 果 它 有 
标题 、 主 图 片 、 价 格 ， 但 是 没有 主要 内 容 ， 那 么 它 可 能 是 一 个 产品 页 面 。 


通过 页 面 中 出 现 的 特定 标签 识别 页 面 
即使 不 抓 取 某 个 标签 内 的 数据 ， 你 仍然 可 以 利用 这 个 标签 。 你 的 仆 虫 可 以 寻找 类 似 于 
<div id="related-products"> 这 样 的 元 素来 识别 产品 页 面 ， 即 便 是 念 虫 对 相关 产品 的 内 
容 并 不 感 兴 

为 了 跟踪 多 个 页 面 类 型 ， 你 需要 在 Python 中 有 多 个 类 型 的 页 面 对 象 。 这 通过 两 种 方式 来 实现 。 


如 果 页 面 都 是 相似 的 (它们 基本 上 都 是 相同 类 型 的 内 容 )， 你 可 能 需要 在 现 有 的 网 页 对 象 
中 加 入 一 个 pageType 属性 : 













































































class Website: 


""" 所 有 文章 /网 页 的 共同 基 类 """ 


def _ init (self, type, name, url, searchUrl, resultListing, 
resultUrl, absoluteUrl, titleTag, bodyTag): 
self.name = name 
seLf.UrL = url 
self.titleTag = titleTag 
self.bodyTag = bodyTag 
self.pageType = pageType 





如 果 你 在 一 个 类 SQL 的 数据 库 中 对 这 些 页 面 进行 排序 ， 这 种 模式 类 型 意味 着 这 些 页 面 应 该 
被 存放 在 同一 张 表 中 ， 并 且 加 入 一 个 额外 的 pageType 列 。 
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如 果 你 抓 取 的 页 面 或 内 容 各 不 相同 (它们 包含 不 同类 型 的 字段 )， 就 需要 为 每 个 页 面 类 型 
创建 一 个 新 的 对 象 。 当 然 ， 有些 东 西 是 所 有 网 页 共有 的 一 一 它们 都 有 一 个 URL， 也 可 能 都 
有 一 个 名 称 或 者 页 面 标题 。 这 种 情况 非常 适合 用 子 类 : 

















class Website: 


""" 所 有 文章 /网 页 的 共同 基 类 """ 

















def _ init_ (self, name, url, titleTag): 
self.name = name 
self.url = url 
self.titleTag = titleTag 





这 不 是 一 个 由 你 的 仆 虫 直接 使 用 的 对 象 ， 而 是 将 被 你 的 页 面 类 型 引用 的 对 象 : 














class Product(Website): 
"产品 页 面 要 抓 取 的 信息 """ 
def _ init (self, name, url, titleTag, productNumber, price): 
Website. init (self, name, url, TitleTag) 
self.productNumberTag = productNumberTag 
self.priceTag = priceTag 




















class Article(Website): 
""" 文 章 页 面 要 抓 取 的 信息 """ 
def _ init (self, name, url, titleTag, bodyTag, dateTag): 
Website. init (self, name, url, titleTag) 
邮 self.bodyTag = bodyTag 
self.dateTag = dateTag 























这 个 产品 页 面 扩展 了 website 基 类 ， 并 且 加 入 了 仅 适 用 于 产品 的 productNumber 和 price 属 
性 ， 而 Article 类 加 入 了 body 和 date 属性 ， 这 两 个 属性 是 不 适用 于 产品 的 。 




















你 可 以 用 这 两 个 类 去 抓 取 一 个 商店 网 站 ， 该 网 站 除了 产品 ， 可 能 还 包含 博客 文章 或 新 闻 稿 。 


4.4 关于 网 络 爬 虫 模 型 的 思 
从 互联 网 抓 取信 息 犹 如 从 消防 水 带 中 饮水 。 互 联网 上 有 很 多 东西 ， 你 需要 什么 或 者 你 如 何 
需要 它 并 非 总 是 清晰 的 。 对 于 任何 大 型 网 页 抓 取 项 目 (其 至 是 一 些小 项 目 ) 来 说 ， 第 一 步 


都 是 回答 这 些 问题 。 























处 理 带 有 相 











当 抓 取 来 自 多 个 源 或 者 多 个 域 的 相似 数据 时 ， 你 的 目标 应 该 总 是 将 其 规范 化 。 
同和 可 比较 的 字段 的 数据 ， 总 是 比 处 理 完 全 依赖 于 其 源 格式 的 数据 容易 得 多 。 


在 很 多 情况 下 ， 构 建 腿 虫 时 应 该 假定 未 来 会 加 入 更 多 的 数据 源 ， 目 标 是 减少 加 入 这 些 新 数 
据 源 所 带 来 的 开销 。 即 使 茶 个 网 站 乍 看 起 来 并 不 适用 于 你 的 模型 ,但 也 可 能 会 有 一 些 细 市 
证 明 它 确实 是 适用 的 。 从 长 远 看 ， 能 够 识别 潜藏 的 模式 可 以 为 你 节约 时 间 、 人 金钱， 也 能 名 
免 很 多 烦恼 。 
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数据 间 的 联系 也 不 应 该 被 忽视 。 你 是 否 在 所 有 数据 源 中 寻找 带 有 “类 型 ”“ 尺 码 ” 或 “ 主 
题 ” 等 属性 的 信息 ?你 如 何 存储 、 检 索 并 将 这 些 属性 概念 化 ? 


软件 架构 是 一 个 广泛 而 重要 的 主题 ， 需 要 在 整个 职业 生涯 中 逐渐 和 掌握。 幸运 的 是 ， 网 页 抓 
取 的 软件 架构 是 一 套 有 限 且 可 管理 的 技能 ， 并 且 很 容易 掌握 。 在 继续 抓 取 数 据 的 过 程 中 ， 
你 可 能 会 发 现 同样 的 基本 模式 反复 地 出 现 。 创 建 一 个 具有 良好 结构 的 网 络 爬 虫 不 需要 具备 





很 多 临 滁 难 


























E 异 的 知识 ， 但 是 确实 需要 你 后 退 一 步 仔细 思考 你 的 项 目 。 














第 5 章 


Scrapy 








上 一 章 介绍 了 一 些 创建 大 型 、 可 扩展 、( 最 重要 的 ! ) 易 维 护 的 网 络 腿 虫 的 技术 和 模式 。 
虽然 手动 创建 非常 简单 ， 但 是 许多 现成 的 库 、 框 架 其 至 带 图 形 界面 的 工具 可 以 代劳 ， 使 用 
它们 至 少 可 以 让 生活 轻松 点 儿 。 





本 章 将 介绍 网 络 候 虫 开发 中 一 个 最 好 的 框架 : Scrapy。 在 我 写本 书 第 一 版 的 时 候 ，Scrapy 
还 没有 发 布 针对 Python 3.x 的 版 本 ， 因 此 我 在 书 里 只 为 它 安 排 了 一 节 内 容 。 后 来 ， 这 个 库 
不 断 升 级 ， 目 前 已 经 支持 Python 3.3 以 上 版 本 ， 而 且 还 添加 了 一 些 新 功能 ， 因 此 我 非常 想 
把 那 一 节 内 容 扩展 成 一 章 。 











写 网 络 仆 虫 的 一 个 挑战 是 经 常 需要 重复 同样 的 任务 ， 找 出 网 页 中 的 所 有 链接 ， 评 估 内 链 与 
外 链 的 差异 ， 再 跳 转 到 新 的 网 页 。 虽 然 掌握 这 些 基 本 模式 很 有 用 ， 也 便于 从 零 开 始 创建 惟 
虫 ， 但 是 Scrapy 可 以 帮 你 搞定 里 面 的 诸多 细 市 。 








当然 ，Scrapy 并 不 能 揣测 你 的 心思 。 你 仍然 需要 定义 网 页 模板 ， 告 诉 它 开始 抓 取 的 位 置 ， 
为 你 要 找 的 网 页 定义 URL 模式 。 但 是 在 这 些 场景 中 ， 它 都 提供 了 一 个 整洁 的 框架 来 帮 你 
组 织 代 码 。 





5.1 安装 Scrapy 


Scrapy 不 仅 提供 了 从 其 网 站 进行 下 载 的 工具 ， 也 提供 了 用 第 三 方 安装 管理 器 (如 pip) 安 
装 Scrapy 的 指令 。 
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由 于 Scrapy 比较 大 也 比较 复杂 ， 它 通常 不 是 一 个 可 用 如 下 传统 方式 安装 的 框架 。 


$ pip install Scrapy 








我 之 所 以 说 “通常 *， 是 因为 尽管 理论 上 可 以 通过 pip 安装 成 功 ， 但 是 我 经 常 在 安装 过 程 中 
遇 到 复杂 的 依赖 问题 、 版 本 不 匹配 问题 ， 以 及 其 他 无 法 解决 的 bug。 


如 果 你 执意 要 用 pip 安装 Scrapy， 那 么 强烈 推荐 你 用 虚拟 环境 〈 关 于 虚拟 环境 的 更 多 细节 ， 
请 参考 1.2.1 节 中 的 “用 虚拟 环境 保存 库 文件 ) 。 


























我 更 喜欢 用 Anaconda 包 管 理 器 进行 安装 。Anaconda 是 Continuum 公司 开发 的 产品 ， 主 要 
是 为 了 方便 人 们 搜索 和 安装 流行 的 Python 数据 科学 包 。 它 管理 的 许多 Python 包 都 会 在 后 
看 的 章节 中 用 到 ， 例 如 NumPy 和 NLIK。 


























Anaconda 安装 完成 后 ， 通 过 下 面 的 命令 就 可 以 安装 Scrapy: 











conda instaLL -c conda-forge scrapy 


如 果 你 遇 到 了 问题 ， 或 者 需要 最 新 信息 ， 请 参阅 Scrapy 官方 文档 中 的 安装 指南 。 


蜘蛛 初始 化 

当 Scrapy 框架 安装 完成 之 后 ， 还 需要 为 每 一 个 蜂 蛛 (spider) 做 一 些 配置 。 一 个 蜂 蛛 就 是 一 
个 Scrapy 项 目 ， 和 它 的 名 称 一 样 ， 就 是 用 来 候 网 ( 抓 取 网 页 ) 的 。 我 在 这 一 章 都 用 “ 蜂 蛛 ” 
特 指 Scrapy 项 目 ， 而 用 “不 虫 ”(crawler) 表示 “任意 用 或 不 用 Scrapy 抓 取 网 页 的 程序 ”。 








如 果 在 当前 目录 中 创建 新 的 蜘蛛 ， 就 运行 下 面 的 命令 : 





$ scrapy startproject wikiSpider 























这 行 命令 会 在 项 目 所 在 的 目录 中 创建 一 个 新 的 子 目录 ， 名 为 wikiSpider。 目 录 里 面 的 文件 
结构 如 下 所 示 : 


scrapy.cfg 
。 wikiSpider 
一 Spiders 
一 init.py 
一 items.py 
一 middlewares.py 
一 pipelines.py 
一 Settings.py 
一 initpy 





这 些 Pytho 


n 文件 都 用 桩 代码 进行 初始 化 ， 为 用 户 提供 一 种 创建 新 蜂 蛛 项 目的 快捷 方式 。 本 





章 中 的 每 一 节 











节 内 容 都 是 围绕 wikiSpider 项 目 展 开 的 。 


5.2 创建 一 个 简易 爬虫 


为 了 创建 一 个 爬虫 ， 首 先 需 要 在 spiders 文件 夹 里 面 增加 一 个 新 文件 ， 路 径 为 wikiSpider/ 
wikiSpider/spiders/article.py。 在 你 刚刚 创建 的 article.py 文件 中 ， 写 上 以 下 代码 : 





import scrapy 


class ArticleSpider(scrapy.Spider): 


name='article' 


def start_requests(self): 


urls = [ 


'http://en.wikipedia.org/wiki/Python_ 











'%28programming_language%29'， 
'https://en.wikipedia.org/wiki/Functional_programming', 
'https://en.wikipedia.org/wiki/Monty_Python'] 

return [scrapy.Request(url=url, callback=self.parse) 


for url in urls] 


def parse(self, response): 


个 类 的 名 称 (ArticleSpider) 和 文人 


url = response.url 


title = response.css('h1::text').extract first() 
print('URL is: {}'.format(url)) 
print('Title is: {}'.format(title)) 





F 名 (wikiSpider) 不 一 样 ， 这 表明 这 个 类 在 wikiSpider 





的 众多 类 目 中 专门 用 于 抓 取 文章 网 页 ， 后 面 你 可 能 还 需要 用 它 搜索 其 他 类 型 的 网 页 。 
































在 处 理 包含 多 种 内 容 的 大 型 网 站 时 ， 你 可 能 需要 为 每 种 内 容 ( 像 博客 文章 、 新 闻 稿 、 文 章 
> 分 配 不 同 的 Scrapy item， 每 个 具有 不 同 的 字段 ， 但 它们 都 在 同一 个 Scrapy 项 目 中 运 
于 。 项 目 里 面 的 每 个 蜂 蛛 的 名 称 必须 唯一 。 

















关于 这 个 蜂 蛛 还 需要 注意 的 是 两 个 函数 start_requests 和 parse。 


start_requests 畏 数 是 Scrapy 定义 的 程序 人口， 用 于 生成 Scrapy 用 来 抓 取 网 站 的 Request 


对 象 。 


parse 是 一 








个 用 户 定 义 的 回调 函数 ， 通 过 callback=self.parse 传递 给 Request 对 象 。 在 后 





面 的 内 容 中 ， 你 会 看 到 parse 函数 更 强大 的 功能 ， 不 过 现在 只 是 让 它 打 印 网 页 的 标题 。 


你 可 以 进入 wikiSpider/wikiSpider/spiders 文件 夹 ， 然 后 运行 article 蜘蛛 : 


$ scrapy runspider article.py 
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Scrapy 默认 的 输出 结果 非常 哆 嗪 。 除 了 一 堆 调 试 信息 之 外 ， 打 印 的 结果 可 能 像 下 面 这 相 


HR 





2018-01-21 23:28:57 [scrapy.core.engine] DEBUG: Crawled (200) 
<GET https://en.wikipedia.org/robots.txt> (referer: None) 
2018-01-21 23:28:57 [scrapy.downloadermiddlewares.redirect] 
DEBUG: Redirecting (301) to <GET https://en.wikipedia.org/wiki/ 
Python_%28programming_Language%29> from <GET http://en.wikipedia.org/ 
wiki/python_%28programming_language%29> 

2018-01-21 23:28:57 [scrapy.core.engine] DEBUG: Crawled (200) 
<GET https://en.wikipedia.org/wiki/Functional_programming> 
(referer: None) 

URL is: https://en.wikipedia.org/wiki/Functional_programming 
Title is: Functional programming 

2018-01-21 23:28:57 [scrapy.core.engine] DEBUG: Crawled (200) 
<GET https://en.wikipedia.org/wiki/Monty_Python> (referer: None) 
URL is: https://en.wikipedia.org/wiki/Monty_Python 

Title is: Monty Python 


这 个 爬虫 到 达 了 start_urts 列表 中 的 3 个 网 页 ， 收 集 信 息 ， 然 后 停止 。 


5.3 ”市 规则 的 抓 取 


上 一 节 的 蜘蛛 还 不 能 算是 真正 意义 的 慌 虫 ， 只 是 抓 取 了 一 组 网 页 的 URL 而 已 。 它 还 不 
有 具备 独立 寻找 新 网 页 的 能 力 。 为 了 让 它 成 为 一 只 功能 齐全 的 腿 虫 ， 你 还 需要 用 Scrapy 的 
CrawlSpider 类 来 完善 它 。 


用 GitHub 仓库 组 织 代码 

Scrapy 框架 不 方便 直接 在 Jupyter notebook 中 运行 ， 所 以 像 前 几 章 那样 渐 
进 式 增加 代码 难以 实现 。 为 了 展示 所 有 的 示例 代码 ， 上 一 节 的 候 虫 保存 在 
article.py 文件 里 ， 而 接 下 来 的 示例 (创建 一 个 Scrapy 蜂 蛛 遍历 多 个 网 页 ) 保 
存在 articles.py (注意 这 里 用 复数 形式 ) 文件 是 
后 面 的 示例 都 会 保存 在 单独 的 文件 中 ， 每 一 节 都 会 出 现 新 的 文件 名 。 运 行 这 
些 示例 时 ， 请 确保 使 用 了 正确 的 文件 名 。 





























呈 





o 

















下 











下 的 类 在 GitHub 仓库 的 articles.py 文件 中 可 以 找到 : 





from scrapy.contrib.Linkextractors import LinkExtractor 
from scrapy.contrib.spiders import CrawlSpider, Rule 


class ArticleSpider(CrawlSpider): 
name = 'articles' 
allowed domains = ['wikipedia.org'] 
start_urls = ['https://en.wikipedia.org/wiki/' 
'Benevolent_dictator_for_life'] 
rules = [Rule(LinkExtractor(allow=r'.*'), callback='parse_items', 
follow=True)] 
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def parse_items(self, response): 

url = response.url 

title = response.css('h1::text').extract first() 

text = response.xpath('//div[@id="mw-content-text"]//text()') 
.extract() 

LastUpdated = response.css('li#footer-info-lastmod::text') 
.extract_first() 

LastUpdated = LastUpdated.repLace( 
'This page was Last edited on ', '') 

print('URL is: {}'.format(url)) 

print('title is: {} '.format(title)) 

print('text is: {}'.format(text)) 

print('Last updated: {}'.format(lastUpdated)) 


新 的 ArticleSpider 扩展 了 CrawLSpider 类 。 它 没有 使 用 start_requests 国 数 ， 而 是 定义 
了 两 个 列表 start_urls 和 allowed_domains。 这 是 为 了 告诉 蜂 蛛 从 哪 开始 抓 取 ， 以 及 哪些 
域名 的 链接 应 该 保留 ， 哪 些 应 该 忽略 。 


另外 还 定义 了 一 个 rules 列表 ， 为 哪些 链接 应 该 保留 、 哪 些 应 该 忽略 提供 了 进一步 的 说 明 
(在 本 示例 中 ， 用 正则 表达 式 .* 保留 了 所 有 链接 ) 。 








除了 提取 每 个 网 页 的 标题 和 URL， 蜂 蛛 还 增加 了 一 些 新 的 item。 每 个 网 页 的 文字 内 容 都 
是 通过 XPath 选择 器 提取 的 。XPath 通常 用 于 获取 包含 子 标签 (例如 ， 一 段 文本 里 的 标签 
<a>) 的 文字 内 容 。 如 果 你 用 CSS 选择 器 处 理 ， 那 么 子 标签 里 面 的 所 有 文字 都 会 被 忽略 。 


另外 ， 网 页 最 后 更 新 的 日 期 字符 串 也 从 页 脚 解析 出 来 ， 保 存在 Lastupdated 变量 中 。 











现在 你 可 以 到 wikiSpider/wikiSpider/spiders 文件 夹 里 运行 示例 了 ， 代 码 如 下 ; 


$ scrapy runspider articles.py 


警告 :这 个 蜂 蛛 会 一 直 运 行 











虽然 这 个 蜂 蛛 和 前 面 那 个 一 样 在 命令 行 中 运行 ,但 是 它 不 会 终止 (至 少 很 长 
一 段 时 间 内 不 会 终止 )， 除 非 你 用 Ctrl-C 或 者 关闭 终端 来 强行 终止 它 。 考 虑 








到 维基 百科 的 服务 器 负载 ， 请 不 要 长 时 间 运 行 它 。 


蜂 蛛 运行 的 时 候 会 遍历 wikipedia.org， 然 后 保留 所 有 含 wikipedia.org 域名 的 链接 ， 打 印 网 
页 的 标题 ， 并 忽略 所 有 外 链 : 


2018-01-21 01:30:36 [scrapy.spidermiddlewares.offsite] 

DEBUG: Filtered offsite request to 'www.chicagomag.com': 

<GET http://www.chicagomag.com/Chicago-Magazine/June-2009/ 
Street-Wise/> 

2018-01-21 01:30:36 [scrapy.downloadermiddlewares.robotstxt] 
DEBUG: Forbidden by robots.txt: <GET https://en.wikipedia.org/w/ 
index.php?title=Adrian_Holovaty&action=edit&section=3> 

title is: Ruby on Rails 
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URL is: https://en.wikipedia.org/wiki/Ruby_on_Rails 

text is: ['Not to be confused with ', 'Ruby (programming Language) ' ， 
'., '\n', '\n', 'Ruby on Rails', ... ] 

Last updated: 9 January 2018, at 10:32. 





这 已 经 是 一 个 非常 好 的 仆 虫 了 ,但 是 它 可 以 使 用 一 些 限制 。 它 不 只 是 访问 维基 百科 的 文章 
网 页 时 ， 也 会 在 非 文 章 网 页 上 “漫步 "， 例 如 : 


title is: Wikipedia:General disclaimer 
让 我 们 仔细 看 看 这 行 代码 ， 采 用 Scrapy 的 Rule 和 LinkExtractor: 


rules = [Rule(LinkExtractor(allow=r'.*'), callback='parse_items', 
follow=True)] 





这 行 代 码 提供 了 Scrapy 的 Rute 对 象 列表 ， 这 些 对 象 定义 了 所 有 和 链接 的 过 滤 规 则 。 当 设置 
多 个 规则 时 ， 每 个 链接 都 要 按 顺 序 检查 。 匹 配 的 第 一 个 规则 用 来 决定 如 何 处 理 链 接 。 如 果 
链接 不 能 匹配 任何 规则 ， 就 会 被 忽略 。 




















一 个 Rule 共 包 含 6 个 参数 。 


link_extractor 


这 是 唯一 的 必 选 参数 ， 是 一 个 LinkExtractor 对 象 。 





callback 
用 来 解析 网 页 内 容 的 函数 。 


cb_kwargs 
一 个 要 传 入 回调 函数 的 参数 字典 。 这 个 字典 的 形式 是 {arg_namel: arg_vaLue1，arg_ 
name2: arg_value2}， 在 重用 同样 的 解析 函数 处 理 稍 微 不 同 的 任务 时 ， 会 是 一 个 很 方便 
的 工具 。 

















follow 
设置 是 否 需 要 将 当前 页 面 中 找到 的 链接 添加 到 后 面 的 抓 取 里 。 如 果 没 有 提供 回调 函数 ， 
那么 默认 值 为 True (毕竟 ， 如 果 你 没有 对 网 页 做 任何 处 理 ， 那 么 显然 你 至 少 还 想 用 它 
来 继续 抓 取 网 站 )。 如 果 提 供 了 回调 函数 ， 则 这 个 参数 的 默认 值 是 False。 


























LinkExtractor 是 一 个 简单 的 类 ， 专 门 用 于 根据 提供 的 规则 ， 识 别 和 返回 HTML 内 容 页 面 
中 的 链接 。 它 有 许多 参数 可 用 来 根据 CSS 和 XPath 选择 器 、 标 签 (你 可 以 在 错 标 签 之 外 寻 
找 链接 ! )、 域 名 等 属性 接受 或 拒绝 链接 。 

















LinkExtractor 类 是 可 以 扩展 的 ， 可 以 增加 自 定 义 参 数 。 关 于 链接 提取 器 的 更 多 信息 ， 请 
参考 Scrapy 的 文档 。 





尽管 LinkExtractor 类 有 很 多 灵活 的 特性 ， 但 是 常用 的 参数 只 有 两 个 。 


aLLow 


允许 匹配 正则 表达 式 的 所 有 链接 。 


deny 


拒绝 匹配 正则 表达 式 的 所 有 链接 。 


在 单个 解析 函数 中 用 两 个 独立 的 Rule 和 LinkExtractor 类 ， 你 可 以 创建 一 个 蜘蛛 来 抓 取 维 
基 百 科 ， 识 别 所 有 的 文章 网 页 和 带 标 签 的 非 文 章 网 页 (articlesMoreRules.py) : 











from scrapy.contrib.Linkextractors import LinkExtractor 
from scrapy.contrib.spiders import CrawlSpider, Rule 


class ArticleSpider(CrawlSpider): 
name = 'articles' 
allowed domains = ['wikipedia.org'] 
start_urls = ['https://en.wikipedia.org/wiki/' 
'Benevolent_dictator_for_life'] 
rules = [ 
Rule(LinkExtractor(allow="'^(/wiki/)((?!1:).)*$'), 
callback='parse_items', follow=True, 
cb_kwargs={'is_article': True}), 
Rule(LinkExtractor(allow="'.*'), callback='parse_items', 
cb_kwargs={'is_article': False}) 


] 


def parse items(self, response, is article): 
print(response.url) 
title = response.css('h1::text').extract first() 
if is_article: 
url = response.url 
text = response.xpath('//div[@id="mw-content-text"]' 
'//text()').extract() 
LastUpdated = response.css('li#footer-info-lastmod' 
'::text').extract first() 
LastUpdated = LastUpdated.repLace('This page was ' 
'last edited on ', '') 
print('Title is: {} '.format(title)) 
print('title is: {} '.format(title)) 
print('text is: {}'.format(text)) 
else: 
print('This is not an article: {}'.format(title)) 


前 面 说 过 ， 每 个 链接 都 会 按照 列表 中 的 所 有 规则 进行 过 滤 。 所 有 文章 网 页 (以 /wiki 开始 
而 且 不 包含 冒号 ) 都 会 先 在 parse_items 函数 中 处 理 ， 默 认 参 数 是 is_article=True。 然 后 
所 有 的 非 文章 链接 都 会 传人 到 parse_items 函数 中 ， 该 函数 的 参数 是 is_article=False。 


当然 ， 如 果 你 只 想 收集 文章 类 型 网 页 并 忽略 其 他 页 面 ， 用 这 个 方法 可 能 不 太 合 适 。 更 容易 
的 方法 是 直接 忽略 那些 不 匹 本 URL 模式 的 网 页 ， 同 时 排除 第 二 条 规则 (和 is_article 变 
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)。 然 而 ， 这 种 方法 可 能 更 适合 处 理 特殊 场景 : URL 信息 或 者 在 抓 取 过 程 中 收集 到 的 信 
会 影响 网 页 的 解析 方式 。 





三 
时 
息 
,已 、 


5.4 创建 iem 


到 目前 为 止 ， 你 已 经 看 到 了 许多 用 Scrapy 查找 、 解 析 和 抓 取 网 站 的 方法 ， 但 是 Scrapy 还 
提供 了 许多 有 用 的 工具 ， 可 帮助 你 组 织 已 收集 的 item， 并 将 它们 保存 到 带 有 明确 定义 的 字 
段 的 自 定义 对 象 中 。 


为 了 帮助 你 组 织 所 收集 的 信息 ， 你 需要 创建 一 个 Articte 对 象 。 在 items py 文件 中 创建 一 
个 新 的 名 为 Article 的 item。 

















当 你 打开 items.py 文件 时 ， 它 应 该 像 这 样 : 





# -*- coding: utf-8 -*- 





# 在 此 为 抓 取 的 item 定 义 模 型 
# 

# 参见 文档 : 
# http://doc.scrapy.org/en/latest/topics/items.html 





import scrapy 


class WikispiderItem(scrapy.Item): 
# 在 此 定义 Item 字段: 
# name = scrapy.Field() 
pass 





把 默认 的 Iten 示例 代码 替换 成 新 的 Articte 类 ， 它 扩展 了 scrapy.Iten: 
import scrapy 


class ArticLe(scrapy.Item) : 
url = scrapy.Field() 
title = scrapy.Field() 
text = scrapy.Field() 
LastUpdated = scrapy.Field() 











你 定义 了 从 每 个 网 页 收集 的 3 个 字段 : 标题 、URL 和 页 面 最 后 的 更 新 日 期 。 


如 果 你 要 从 多 种 网 页 类 型 中 收集 数据 ， 那 么 你 应 该 在 items.py 中 为 每 种 类 型 定义 单独 的 
类 。 如 果 你 的 item 非常 大 ， 或 者 你 开始 向 你 的 item 对 象 中 添加 更 多 的 解析 功能 ， 那 么 你 
可 能 还 希望 将 每 个 item 提取 到 独立 的 文件 中 。 然 而 ， 当 item 比较 小 的 时 候 ， 我 还 是 喜欢 
把 它们 都 放 在 一 个 文件 中 。 


请 注意 在 articleItems.py 文件 中 ， 为 了 创建 新 的 Articte item， 需 要 对 ArticteSpider 类 做 
一 些 调整 ; 
































入 后 
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from scrapy.contrib.Linkextractors import LinkExtractor 
from scrapy.contrib.spiders import CrawlSpider, Rule 
from wikiSpider.items import Article 


class ArticleSpider(CrawlSpider): 

name = 'articleltems' 

allowed domains = ['wikipedia.org'] 

start_urls = ['https://en.wikipedia.org/wiki/Benevolent' 
'_dictator_for_life'] 

rules = [ 
Rule(LinkExtractor(allow="'(/wiki/)((?!:).)*$'), 

callback='parse_items', follow=True), 


] 


def parse_items(self, response): 

article = Article() 

article['url'] = response.url 

article['title'] = response.css('h1::text').extract first() 

article['text'] = response.xpath('//div[@id=" 
'"mw-content-text"]//text()').extract() 

LastUpdated = response.css('li#footer-info-lastmod::text') 
.extract_first() 

article['lastUpdated'] = LastUpdated.repLace('This page was 
'last edited on ', '') 

return article 














如 果 用 下 面 的 命令 运行 这 个 文件 : 
$ scrapy runspider articLeItems .py 
屏幕 就 会 以 Python 字典 的 形式 输出 Scrapy 调试 信息 以 及 每 篇 文章 的 item: 


2018-01-21 22:52:38 [scrapy.spidermiddlewares.offsite] DEBUG: 

Filtered offsite request to 'wikimediafoundation.org': 

<GET https://wikimediafoundation.org/wiki/Terms_of_Use> 

2018-01-21 22:52:38 [scrapy.core.engine] DEBUG: Crawled (200) 

<GET https://en.wikipedia.org/wiki/Benevolent dictator_ for_life 

#mw-head> (referer: https://en.wikipedia.org/wiki/Benevolent_ 

dictator_for_life) 

2018-01-21 22:52:38 [scrapy.core.scraper] DEBUG: Scraped from 

<200 https://en.wikipedia.org/wiki/Benevolent dictator_ for_life> 

{'lastUpdated': ' 13 December 2017, at 09:26.', 

'text': ['For the political term, see '， 
'Benevolent dictatorship', 


1 1 
CAE 

















使 用 Scrapy 的 Items 并 不 只 是 为 了 良好 地 组 织 代码 ， 或 者 让 结果 的 可 读 性 更 好 。Itens 提 
供 了 许多 输出 和 处 理 数据 的 工具 ， 后 面 会 介绍 。 
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5.5 输出 item 


Scrapy 用 Iten 对 象 确定 它 需 要 从 浏览 的 网 页 中 保留 哪些 信息 。Scrapy 可 以 将 信息 保存 为 
不 同 的 格式 ， 例 如 CSV、JSON 和 XML 文件 ， 这 可 以 用 下 面 的 命令 实现 : 














$ scrapy runspider articlelItems.py -0 articles.csv -t csv 
$ scrapy runspider articLeItems.py -0o articles.json -t json 
$ scrapy runspider articleItems.py -0 articles.xml -t xml 


不 


TT 


每 次 运行 articleItems 爬虫 时 ， 结 果 都 会 以 指定 的 格式 写 人 所 提供 的 文件 中 。 如 果 文 人 
存在 ， 就 会 自动 创建 。 
你 可 能 已 经 注意 到 ， 在 前 面 示例 中 创建 的 articles 蜘蛛 里 面 ，text 变量 是 一 个 字符 串 列 


表 ， 而 不 是 一 个 单独 的 字符 串 。 列 表 中 的 每 个 字符 串 表示 一 个 HTML 元 素 内 的 文字 ， 但 是 
在 <div id="mwcontent-text"> 里 面 收集 到 的 文字 其 实 是 由 许多 子 元 素 构 成 的 。 





















































Scrapy 可 以 很 好 地 处 理 这 类 复杂 场景 。 例 如 ， 在 CSV 文件 格式 中 ， 它 会 把 列表 转换 为 字符 
串 ， 并 对 所 有 逗号 进行 转 义 ， 从 而 保证 一 个 列表 的 所 有 文字 都 保存 在 CSV 的 一 个 字段 中 。 


在 XML 文件 里 ， 列 表 的 每 个 元 素 都 被 保存 在 子 标签 中 : 














<items> 
<item> 
<url>https://en.wikipedia.org/wiki/Benevolent dictator for_life</url> 
<title>Benevolent dictator for life</title> 
<text> 
<VaLue>For the political term, see </value> 
<value>Benevolent dictatorship</value> 


</text> 
<LastUpdated> 13 December 2017, at 09:26.</lastUpdated> 


</item> 


在 JSON 格式 中 ， 列 表 仍 然 被 保存 为 列表 。 
当然 ， 你 可 以 自己 使 用 Iten 对 象 ， 按 照 你 想 要 的 方式 将 它们 写 入 文件 或 数据 库 ， 只 需 在 让 
虫 的 解析 函数 里 增加 适当 的 代码 即 可 。 


5.6 ” ”item 管线 组 件 


虽然 Scrapy 是 单线 程 的 ， 但 是 它 能 够 异步 发 出 和 处 理 多 个 请 求 。 这 样 它 就 会 比 本 书 前 面 介 
绍 的 爬虫 的 速度 快 ， 尽 管 我 一 直 坚 信 在 网 页 抓 取 中 快 不 一 定 就 更 好 。 
































由 于 你 要 抓 取 的 网 站 的 Web 服务 器 必须 处 理 每 一 个 请 求 ， 因 此 作为 一 个 好 公民 ， 你 必须 评 
估 这 种 服务 器 锤 击 (server hammering) 行为 是 否 有 必要 (其 至 是 否 明 智 ， 因 为 许多 网 站 也 











大 
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有 能 力 和 意愿 阻止 它们 所 认为 的 恶意 抓 取 行 为 )。 关 于 网 页 抓 取 的 道德 问题 和 适当 限制 仆 
虫 的 重要 性 ， 请 参考 第 18 章 。 


























用 Scrapy 的 item 管线 组 件 可 以 进一步 提升 网 页 抓 取 的 速度 ， 因 为 可 以 在 等 待 请 求 返回 结 
果 的 过 程 中 完成 所 有 数据 处 理 ， 而 不 是 等 待 数据 处 理 完成 后 再 发 起 新 请 求 。 在 数据 处 理 需 
要 大 量 时 间 时 ， 以 及 在 计算 密集 型 的 任务 中 ， 这 种 优化 有 时 是 不 可 或 缺 的 。 


为 了 创建 一 个 item 管线 组 件 ， 需 要 用 到 本 章 一 开始 创建 的 settings.py 文件 。 你 应 该 会 看 到 
里 面 被 注释 的 几 行 代码 : 



































# 配置 item 管线 组 件 

# 参见 https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
#ITEM_PIPELINES = { 

# 'wikiSpider.pipelines.Wikispiderpipeline': 300， 

#} 


将 后 面 3 行 代码 注释 去 掉 ， 替 换 成 下 面 的 代码 : 














ITEM_PIPELINES = { 
'wikiSpider.pipelines.Wikispiderpipeline': 300， 
} 


这 里 提供 了 一 个 Python 类 wikispider .pipelines.Wikispiderpipeline， 用 来 处 理 数 据 ， 还 
提供 了 一 个 整数 ， 用 于 表示 当 存 在 多 个 数据 处 理 类 时 ， 运 行 管线 组 件 的 顺序 。 虽然 使 用 任 
何 整数 都 可 以 ， 但 是 通常 使 用 介 于 0 到 1000 之 间 的 整数 ， 管 线 组 件 按照 顺序 方式 运行 。 

现在 你 需要 增加 管线 组 件 类 ， 并 重 写 原 来 的 蜂 蛛 ， 这 样 就 可 以 在 蜂 蛛 收集 数据 的 同时 ， 由 


管线 组 件 承担 数据 处 理 的 重任 。 可 以 在 你 原来 的 蜘蛛 里 写 一 个 parse_items 方法 来 返回 响 
应 ， 并 让 管线 组 件 创建 Articte: 





























def parse_items(self, response): 
return response 


然而 ，Scrapy 框架 不 允许 这 么 做 ， 必 须 返回 一 个 Iten 对 象 ( 例 如 扩展 了 Iten 类 的 Article)。 
因此 parse_items 现在 的 任务 就 是 提取 原始 数据 ， 尽 可 能 少 做 数据 处 理 ， 然 后 传递 给 管线 
组 件 : 











from scrapy.contrib.linkextractors import LinkExtractor 
from scrapy.contrib.spiders import CrawlSpider, Rule 
from wikiSpider.items import Article 


class ArticleSpider(CrawlSpider): 
name = 'articlepipelines' 
allowed domains = ['wikipedia.org'] 
start_urls = ['https://en.wikipedia.org/wiki/Benevolent dictator_for_life'] 
rules = [ 
Rule(LinkExtractor(allow="'(/wiki/)((?!:).)*$'), 
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callback='parse_items', follow=True), 


] 


def parse_items(self, response): 

article = Article() 

article['url'] = response.url 

article['title'] = response.css('hi1::text').extract first() 

article['text'] = response.xpath('//div[@id=" 
'"mw-content-text"]//text()').extract() 

article['lastUpdated'] = response.css('li#' 
'footer-info-lastmod: :text').extract first() 

return article 


这 个 文件 在 GitHub 仓库 中 被 保存 为 articlePipelines.py。 








当然 ， 现 在 还 需要 增加 管线 组 件 ， 将 settings.py 文件 和 升级 的 蜂 蛛 连结 起 来 。 当 





目 在 首次 初始 化 时 ， 会 创建 一 个 wikiSpider/wikiSpider/pipelines.py 文件 : 
# -*- coding: utf-8 -*- 


E 此 定义 你 的 item 管 线 组 件 


作 





I 忘 了 将 管线 组 件 添加 到 ITEM_PIPELINES 设 置 
见 https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


半 亲 条 宁 
江 


@ 


class Wikispiderpipeline(object): 
def process_item(self, item, spider): 
return item 








» 





Scrapy 项 


这 个 示例 类 应 该 替换 成 你 的 新 管线 组 件 代 码 。 在 前 面 的 几 节 中 ， 你 已 经 收集 了 两 个 原始 格 
式 的 字段 ， 而 这 些 可 能 需要 进行 额外 的 数据 处 理 : LastUupdated (一 个 表示 日 期 的 、 格 式 精 








糕 的 字符 串 对 象 ) 和 text (一 个 混乱 的 由 字符 串 片 段 组 成 的 数组 )。 
用 下 面 的 代码 来 替换 wikiSpider/wikiSpider/pipelines.py 文件 中 的 示例 代码 : 


from datetime import datetime 
from wikiSpider.items import Article 
from string import whitespace 


class Wikispiderpipeline(object): 
def process_item(self, article, spider): 

dateStr = article['lastUpdated'] 

article['lastUpdated'] = article['lastUpdated'] 
.repLace('This page was last edited on', '') 

article['lastUpdated'] = article['lastUpdated'].strip() 

article['lastUpdated'] = datetime.strptime( 
article['lastUpdated'], '%d %B %Y, at %H:%M.') 

article['text'] = [line for line in article['text'] 
if line not in whitespacel] 

article['text'] = ''.join(article['text']) 

return article 





WikispiderPipeLine 类 里 面 有 一 个 process_itenm 方 法 ， 它 将 Article 对 象 作为 参数 ， 将 
LastUpdated 字符 串 解析 成 Python 的 datetime 对 象 ， 而 且 对 text 字符 串 进 行 清理 并 将 数 
组 合并 成 一 个 字符 串 。 


对 于 每 一 个 管线 组 件 类 来 说 ，process_iten 是 一 个 必 选 方法 。Scrapy 用 这 个 方法 异步 处 理 
师 蛛 收集 到 的 Itens。 如 果 你 像 上 一 节 那 样 将 结果 输出 到 JSON 或 CSV 文件 中 ， 返 回 的 经 
过 解析 的 Arttcte 对 象 会 被 记录 到 Scrapy 的 日 志 或 者 打印 出 来 。 









































现在 你 可 以 在 两 个 地 方 处 理 数据 : 一 个 是 蜘蛛 中 的 parse_itenms 方法 ， 另 一 个 是 管线 组 件 
中 的 process_iten 方法 。 








可 以 在 settings.py 文件 里 声明 处 理 不 同 任务 的 多 个 管线 组 件 。 然 而 ，Scrapy 会 把 所 有 item 
(无 论 何 种 类 型 ) 按照 顺序 传递 给 每 一 个 管线 组 件 。 在 数据 到 达 管 线 组 件 之 前 ， 面 向 具体 
item 的 数据 解析 可 能 在 里 蛛 里 面 完 成 更 合适 。 不 过 如 果 解 析 需 要 耗费 很 长 时 间 ， 那 么 你 可 
以 需要 考虑 将 数据 处 理 移动 到 管线 组 件 中 〈 在 那里 可 以 异步 处 理 ) ， 并 且 增 加 一 个 item 类 
型 的 过 滤 : 



































def process item(self, item, spider): 
if isinstance(item, Article): 


# 面向 具体 Article 类 型 的 数据 解析 








在 编写 Scrapy 项 目 ， 尤 其 是 大 型 项 目 时 ， 做 哪些 数据 处 理 以 及 在 哪里 进行 这 些 处 理 是 需要 
仔细 考虑 的 重头 戏 。 





5.7 ”Scrapy 日 志 管 理 


虽然 Scrapy 生成 的 调试 信息 很 有 用 ,但 是 你 可 能 会 觉得 它 非常 哆 嗪 。 其 实 你 可 以 轻松 地 调 
整 日 志 的 等 级 ， 只 要 在 Scrapy 项 目的 settings.py 文件 里 增加 一 行 代码 即 可 : 





LOG_LEVEL = ”ERROR 





Scrapy 用 的 是 标准 日 志 等 级 制度 ， 如 下 所 示 ; 





CRITICAL (关键 ) 
ERROR (错误 ) 
WARNING ( 柳 告 ) 
DEBUG (调试 ) 
INFO (信息 ) 


如 果 将 日 志 等 级 设置 为 ERROR， 那 么 只 有 CRITICAL 和 ERROR 日 志 会 显示 。 如 果 日 志 等 级 设 
置 为 INF0， 那 么 所 有 等 级 的 日 志 都 会 显示 ， 以 此 类 推 。 
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除了 通过 settings.py 文件 控制 日 志 等 级 ， 还 可 以 通过 命令 行 参数 控制 日 志 。 如 果 要 将 日 志 答 
出 到 一 个 单独 的 日 志文 件 中 ， 而 不 显示 在 终端 里 ， 可 以 用 下 面 的 命令 行 定义 一 个 日 志文 件 : 








$ scrapy crawl articles -s LOG_FILE=wiki.Log 





如 果 之 前 没有 创建 日 志文 件 ， 它 会 在 当前 目录 中 创建 一 个 














新 的 日 志文 件 ， 并 将 所 有 日 志 输 


出 到 该 文件 里 ， 这 样 你 的 终端 就 会 很 千克， 只 显示 你 手动 添 加 的 Python 打印 语句 。 





5.8 更 多 资源 


Scrapy 是 一 个 非常 强大 的 工具 ， 可 以 处 理 许 多 网 页 抓 取 方 面 的 问题 。 它 可 以 自动 抓 取 URL 
并 和 预定 义 的 规则 进行 比较 ， 确 保 所 有 的 URL 是 唯一 的 ， 并 且 根 据 需 要 将 相对 路 径 的 











URL 转换 为 全 链接 ， 还 可 以 递归 的 行 到 更 深 的 页 面 里 。 














对 于 Scrapy 的 能 力 ， 本 章 涉及 的 只 是 皮毛 ， 我 希望 你 参考 Scrapy 的 文档 ， 以 及 阅读 Dimitrios 


Kouzis-Loukas 所 著 的 《精通 Python 爬虫 框架 Scrapy》， 该 3 


Scrapy 是 一 个 非常 庞大 的 、 具 有 多 种 功能 的 疏 虫 库 。 虽 然 








局 对 这 个 框架 进行 了 详细 的 阐述 。 


它 的 功能 可 以 无 颖 衔接 ， 但 有 许 

















多 重 毒 区 域 ， 使 得 用 户 可 以 轻松 地 开发 出 符合 自己 特定 风格 的 腿 虫 。 如 果 你 想 用 Scrapy 实 
现 什 么 本 章 没有 提 到 的 功能 ， 那 么 很 可 能 有 一 种 或 儿 种 方法 可 以 做 到 ! 
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虽然 在 命令 行 里 显示 运行 结果 很 有 意思 ， 但 是 随 着 数据 不 断 增 多 ， 需 要 进行 数据 聚合 和 分 
析 时 ， 将 数据 打印 到 命令 行 就 不 是 办 法 了 。 为 了 可 以 远程 使 用 大 部 分 网 络 候 虫 ， 你 还 需要 
把 抓 取 到 的 数据 存储 起 来 。 


本 章 将 介绍 3 种 主要 的 数据 管理 方法 ， 它 们 对 绝 大 多 数 应 用 都 适用 。 如 果 你 准备 创建 一 个 
网 站 的 后 端 服务 或 者 创建 自己 的 API， 那 么 可 能 需要 让 仆 虫 把 数据 写 入 数据 库 。 如 果 你 需 
要 一 个 快速 简单 的 方法 收集 网 上 的 文档 ， 然 后 保存 到 你 的 硬盘 里 ， 那 么 可 能 需要 创建 一 个 
文件 流 (file stream)。 如 果 还 要 为 偶然 事件 提 个 醒 儿 ， 或 者 每 天 定时 收集 当天 累计 的 数据 ， 
就 给 自己 发 一 封 邮件 吧 ! 


抛 开 与 网 页 抓 取 的 关系 ， 大 数据 存储 和 与 数据 交互 的 能 力 ， 在 现代 程序 开发 中 也 已 经 是 重 
中 之 重 了 。 这 一 章 的 内 容 其 实 是 实现 第 二 部 分 许多 示例 的 基础 。 如 果 你 对 自动 数据 存储 相 
关 的 知识 不 太 了 解 ， 我 强烈 建议 你 至 少 浏 览 一 下 本 章 内 容 。 


6.1 媒体 文件 


存储 媒体 文件 有 两 种 主要 方式 : 只 获取 文件 URL 链接 ， 以 及 直接 把 源 文件 下 载 下 来 。 你 
可 以 通过 媒体 文件 所 在 的 URL 链接 直接 引用 它 。 这 样 做 的 优点 如 下 。 



































。 爬虫 运行 得 更 快 ， 耗费 的 流量 更 少 ， 因 为 只 要 链接 ， 不 需要 下 载 文件 。 
。 可 以 节省 很 多 存储 空间 ， 因 为 只 需要 存储 URL 链接 就 可 以 。 

。 存储 URL 的 代码 更 容易 写 ， 也 不 需要 实现 文件 下 载 代码 。 

。 不 下 载 文件 能 够 降低 目标 主机 服务 器 的 负载 。 
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不 过 这 么 做 也 有 一 些 缺 点 。 


如 果 你 还 在 犹 耶 究竟 是 存储 文件 ， 还 是 只 存储 文 们 


在 你 的 网 站 或 应 用 中 内 内 这 些 外 站 URL 链接 被 称 为 盗 链 (hotlinki 
会 让 你 麻烦 不 断 ， 因 为 每 个 网 站 都 会 采取 防盗 链 措施 。 








ng)。 使 用 盗 链 可 能 


因为 你 的 链接 文件 在 别人 的 服务 器 上 ， 所 以 你 的 应 用 就 要 跟着 别人 的 市 奏 运行 了 。 
盗 链 是 很 容易 改变 的 。 如 果 你 把 盗 链 图 片 放 在 博客 上 ， 要 是 被 对 方 服务 器 发 现 ， 很 可 能 








会 被 恶搞 。 如 果 你 把 URL 链接 存 起 来 准备 以 后 再 存储 文件 ， 可 能 
效 了 ， 或 者 是 变 成 了 完全 无 关 的 内 容 。 





的 时 候 链接 已 经 失 





现实 中 的 Web 浏览 器 不 仅 可 以 请 求 HTML 页 面 并 切换 页 面 ， 也 会 下 载 访问 页 面 上 所 有 
的 资源 。 下 载 文 件 会 让 你 的 候 虫 看 起 来 更 像 是 人 在 浏览 网 站 ,这 样 做 反而 有 好 处 。 




















F 的 URL 链接 ， 可 以 想 想 这 些 文件 是 要 


多 次 使 用 ， 还 是 放 进 数据 库 之 后 就 只 是 等 着 “ 落 灰 ” ， 再 也 不 会 被 打开 。 如 果 答 案 是 后 者 ， 


那么 最 好 只 存储 这 些 文件 的 URL。 如 果 答 案 是 前 者 , 忆 














用 来 获取 网 页 内 容 的 urLLib 库 还 包含 有 用 来 获取 文件 内 容 的 方法 
urllib.request.urlretrieve 从 远程 URL 下 载 图 片 : 














from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://www.pythonscraping.com') 

bs = BeautifulSoup(html, 'html.parser') 

imageLocation = bs.find('a', {'id': 'logo'}).find('img')['src'] 
urlretrieve (imageLocation, 'logo.jpg') 








了 么 就 继续 往 下 看 ! 





。 下 面 的 程序 使 用 











这 上段 程序 从 http:/pythonscraping.com 下 载 logo 图 片 ， 然 后 在 程序 运行 的 文件 夹 里 保存 为 
logo.jpg 文件 。 


如 果 你 只 需要 下 载 一 个 文件 ， 而 且 知 道 如 何 获取 它 ， 以 及 它 的 文件 类 型 ， 这 人 么 做 就 可 以 
但 是 大 多 数 仆 虫 都 不 可 能 一 天 只 下 载 一 个 文件 。 下 面 的 程序 会 把 http://pythonscraping. 
com 主页 上 所 有 src 属性 的 内 部 文件 都 下 载 下 来 : 


了 
































import os 

from UrLLib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 


downloadDirectory = 'downloaded’ 
baseUrL = 'http://pythonscraping.com' 


def getAbsoluteURL(baseUrl, source): 
if source.startswith('http://www.'): 
url = 'http://{}' .format(source[11:]) 
elif source.startswith('http://'): 
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url = Source 
elif source.startswith('www.'): 

url = source[4:] 

url = 'http://{}' .format(source) 
else: 

url = '{}/{}'.format(baseUrl, source) 
if baseUrl not in url: 

return None 
return url 


def getDownloadpPath(baseUrl, absoluteUrl, downloadDirectory): 
path = absoluteUrl.replace('www.', '') 
path = path.replace(baseUrl, '') 
path = downloadDirectory+path 
directory = os.path.dirname(path) 


if not os.path.exists(directory): 
os.makedirs(directory) 


return path 


html = urlopen('http://www.pythonscraping.com') 
bs = BeautifulSoup(html, 'html.parser') 
downloadList = bs.findAll(src=True) 


for download in downLoadList: 
fileUrl = getAbsoluteURL(baseUrl, download['src']) 
if fileUrl is not None: 
print(fileUrl) 
urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory)) 


程序 运行 注意 事项 

你 知道 从 网 上 下 载 未 知 文件 的 那些 警告 吗 ? 这 个 程序 会 把 页 面 上 所 有 的 文件 
下 载 到 你 的 硬盘 里 ， 可 能 会 包含 一 些 bash 脚本 、.exe 文件 ， 其 至 可 能 是 恶意 
软件 。 

如 果 你 从 没 运行 过 任何 下 载 到 电脑 里 的 文件 ， 电 脑 就 是 安全 的 吗 ? 尤其 是 当 
你 用 管理 员 权限 运行 这 个 程序 时 ， 你 的 电脑 基本 已 经 处 于 危险 之 中 。 如 果 你 
执行 了 网 页 上 的 一 个 文件 ， 那 个 文件 把 自己 传送 到 了 ../././../usrVbin/python 
里 面 ， 会 发 生 什么 呢 ? 等 下 一 次 你 再 运行 Python 程序 时 ， 你 的 电脑 就 可 能 会 
安装 恶意 软件 。 

这 个 程序 只 是 为 了 演示 ; 请 不 要 随意 运行 它 ， 因 为 这 里 没有 对 所 有 下 载 文 件 
的 类 型 进行 检查 ， 也 不 应 该 用 管理 员 权限 运行 它 。 记 得 经 常备 份 重要 的 文 
件 ， 不 要 在 硬盘 上 存储 敏感 信息 ， 小 心 驶 得 万 年 船 。 


























3 


















































这 个 程序 首先 使 用 Lambda 函数 (第 2 章 介绍 过 ) 选择 首页 上 所 有 带 src 属性 的 标签 。 然 
后 对 URL 链接 进行 清理 和 标准 化 ， 获 得 文件 的 绝对 路 径 (而 且 去 掉 了 外 链 )。 最 后 ， 每 个 
文件 都 会 下 载 到 程序 所 在 文件 夹 的 downloaded 文件 夹 里 。 
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这 里 Python 的 os 模块 用 来 获取 每 个 下 载 文件 的 目标 文件 夹 ， 建 立 完整 的 路 径 。os 模块 是 
Python 与 操作 系统 进行 交互 的 接口 ， 它 可 以 操作 文件 路 径 ， 创 建 目 录 ， 获 取 运 行进 程 和 环 
绕 变 量 的 信息 ， 以 及 其 他 系统 相关 的 操作 。 


6.2 ”把 数据 存储 到 CSV 


CSV (comma-separated values， 如 号 分 隔 值 ) 是 存储 表格 数据 的 常用 文件 格式 。Microsoft 
Excel 和 很 多 应 用 都 支持 CSV 格式 ， 因 为 它 很 简洁 。 下 面 就 是 一 个 CSV 文件 的 例子 : 


























fruit,cost 
apple,1.00 
banana,0.30 
pear ,1.25 


和 Python 一 样 ，CSV 里 空白 (whitespace) 也 是 很 重要 的 : 每 一 行 都 用 一 个 换行 符 分 隔 ， 
列 与 列 之 间 用 逗号 分 隔 (因此 得 名 “去 号 分 隔 ”")。CSYV 文件 (有 时 也 叫 字符 分 隔 值 文件 ) 
还 可 以 用 Tab 字符 或 其 他 字符 分 隔行 ， 但 是 不 太 常 见 ， 用 得 不 多 。 














如 果 你 只 想 从 网 页 上 把 CSV 文件 下 载 到 电脑 里 ， 不 打算 做 任何 解析 和 修改 ， 那 么 这 一 市 








后 四 








i 的 内 容 就 没 必 要 看 了 。 只 要 用 上 一 市 介绍 的 文件 下 载 方法 下 载 并 保存 为 CSV 格式 就 





行 了 。 





Python 的 csv 库 可 以 非常 简单 地 修改 CSV 文件 ， 甚 至 可 以 从 零 开 始 创 建 一 个 CSV 文件 : 











import csv 


csvFile = open('test.csv', 'w+') 
try: 
writer = csv.writer(csvFile) 
writer.writerow(('number', 'number plus 2', 'number times 2')) 
for 1 in range(10): 
writer.writerow( (i, i+2, i*2)) 
finally: 
csvFile.close() 


这 里 提 个 醒 儿 : Python 新建 文件 的 机 制 考虑 得 非常 周到 。 如 果 test.csv 不 存在 ，Python 会 


























自动 创建 该 文件 (不 会 自动 创建 文件 夹 )。 如 果 该 文件 已 经 存在 ，Python 会 用 新 的 数据 覆 


盖 test.csv 文件 。 








运行 完成 后 ， 你 会 看 到 一 个 CSV 文件 : 


umber ,number plus 2,number times 2 


下 NOMN 





网 页 抓 取 的 一 个 常用 功能 就 是 获取 HTML 表格 并 写 入 CSV 文件 。 维 基 百 科 的 文本 编辑 
器 对 比 词 条 (https://en.wikipedia.org/wiki/Comparison of text_editors) 中 提供 了 一 个 非 
常 复杂 的 HTML 表格 ， 其 中 用 到 了 颜色 、 链 接 、 排 序 ， 以 及 其 他 在 写 入 CSV 文件 之 前 
需要 忽略 的 HTML 元 素 。 用 BeautifulSoup 和 get_text() 函数 ， 你 可 以 用 十 几 行 代码 完 


成 这 件 事 : 





import csv 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen('http://en.wikipedia.org/wiki/' 
'Comparison_of_text_editors') 

bs = BeautifulSoup(html, 'html.parser') 

# 主 对 比 表 格 是 当前 页 面 上 的 第 一 个 表格 

table = bs.findAll('table',{'class':'wikitable'})[0] 

rows = table.findAll('tr') 





csvFile = open('editors.csv', 'wt+') 
writer = csv.writer(csvFile) 
try: 
for row in rows: 
csvRow = [] 
for cell in row.findAll(['td', 'th']): 
csvRow.append(cell.get_text()) 
writer .writerow(csvRow) 
finally: 
csvFile.close() 


获取 单个 表格 的 更 简便 的 方法 





如 果 你 有 很 多 HTML 表格 ， 且 每 个 都 要 转换 成 CSV 文件 ， 或 者 要 将 许多 
HTML 表格 汇总 到 一 个 CSV 文件 ， 那 么 可 以 把 这 个 程序 整合 到 念 虫 里 。 但 
是 ， 如 果 这 种 事情 你 只 需要 做 一 次 ， 那 么 更 好 的 办 法 是 复制 粘贴 。 选 中 
HTML 表格 内 容 然后 复制 粘贴 到 Excel 或 Google Docs 里 ， 就 可 以 另存 为 














CSV 格式 ， 不 需要 写 代 码 就 能 搞定 ! 








[Ey 








6.3 MySQL 





个 程序 会 在 程序 上 一 层 目 录 的 files 文件 夹 里 生成 一 个 CSV 文件 ../files/editors.csv。 


MySQL 是 目前 最 受 欢迎 的 开源 关系 型 数据 库 管 理 系 统 。 一 个 开源 项 目 具有 如 此 之 竞争 力 





实在 是 令 人 意外 ， 它 的 流行 程度 可 与 另外 两 个 闭 源 的 商业 数据 库 系 
Server 和 甲骨 文 的 Oracle 数据 库 。 





它 这 么 流行 是 不 无 原因 的 。 对 大 多 数 应 用 来 说 ，MySQL 都 是 不 二 


统 比 肩 : 微软 的 SQL 


选择 。 它 是 一 种 非常 
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灵活 、 稳 定 、 功 能 齐全 的 DBMS， 许 多 顶级 的 网 站 都 在 用 它 ， 比 如 YouTube!、Twitter 和 


: 
Facebook 等 。 





因为 它 受 众 广 泛 ， 免 费 ， 开 箱 即 用 ， 所 以 它 也 是 网 页 抓 取 项 目 中 常用 的 数据 库 ， 我 们 将 在 
本 书后 面 的 示例 中 使 用 它 。 











“关系 型 ”数据 库 ? 
关系 型 数据 就 是 有 关联 的 数据 。 就 是 这 么 简单 ! 
开 个 玩笑 ! 当 计算 机 科学 家 说 起 关系 型 数据 时 ， 他 们 指 的 是 那些 并 非 弧 立 的 数据 一 
它们 的 属性 与 其 他 的 数据 是 有 关联 的 。 例 如 ,“ 用 户 A 在 学 校 B 上 学 "， 这 里 用 户 A 
在 数据 库 的 “用 户 ” 表 中 ， 而 学 校 也 是 在 数据 库 的 “学 校 ” 表 中 。 


在 本 章 后 面 的 内 容 里 ， 我 们 将 介绍 数据 关系 的 不 同类 型 ， 以 及 如 何 有 效 地 把 数据 存储 
到 MySQL (或 其 他 关系 型 数据 库 ) 里 。 











6.3.1 安装 MySQL 

如 果 你 第 一 次 接触 MySQL， 安 装 数据 库 听 着 可 能 有 点 儿 吓 人 (如果 你 是 老手 ， 可 以 跳 过 
本 节 )。 其 实 ， 安 装 方法 和 安装 其 他 软件 一 样 简单 。 归 根 到 底 ，MySQL 就 是 由 一 系列 数 
据 文 件 构成 的 ， 存 储 在 你 的 远 端 服务 器 或 本 地 的 电脑 上 ， 里 面包 含 了 数据 库存 储 的 所 有 信 
息 。MySQL 软件 层 提 供 了 一 种 通过 命令 行 界 面 与 数据 交互 的 便捷 方法 。 例 如 ， 下 面 的 命 
令 会 把 用 户 表 users 中 所 有 名 字 为 “Ryan” 的 用 户 找 出 来 : 






























































SELECT * FROM Users WHERE firstname = "Ryan" 




















如 果 你 使 用 的 是 基于 Debian 的 Linux 发 行 版 (或 者 具有 apt-get 的 操作 系统 )， 安 装 
MySQL 很 简单 : 





$ sudo apt-get install mysql-server 


只 要 稍微 留意 一 下 安装 过 程 ， 看 看 电脑 是 不 是 可 以 满足 安装 的 内 存 需求 ， 然 后 在 安装 提示 
的 地 方 为 root 用 户 设 置 新 密码 就 可 以 了 。 


























macOS 和 Windows 系统 上 的 安装 过 程 有 点 儿 复杂 。 如 果 你 没有 甲骨 文 账户 ， 下 载 MySQL 
安装 包 之 前 需要 先 注 册 一 下 。 




















如 果 你 用 macOS 系统 ， 请 先 下 载 对 应 的 安装 包 (http://dev.mysql.com/downloads/mysql/)。 





注 1: Joab Jackson, “YouTube Scales MySQL with Go Code,” PCWorld, December 15, 2012. 
注 2: Jeremy Cole and Davi Arnaut, “MySQL at Twitter ”The Twitter Engineering Blog, April 9, 2012. 
注 3:“MYySQL and Database Engineering: Mark Callaghan,” March 4, 2012. 
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选择 .dmg 安装 包 ， 登 录 网 站 或 者 创建 一 个 账户 ， 


你 会 看 到 一 个 简单 的 安装 向 导 (参见 图 6-1)。 


开始 下 载 文件 。 下 载 完 成 后 打开 安装 包 ， 





BO i Install MySQL 5.6.20-community | 





Welcome to the MySQL 5.6.20-community Installer 





Thank you for choosing MySQL Server, the popular open 
日 Introduction source database system by Oracle. This package will 
install the MySQL Server software on your system. 








® License 

® Destination Select Online resources: 

® Installation Type 。 MySQL Reference Manual 
E 。 www.MySQL.com 

® Installation eo Www.Oracle.com 

®@ Summary 














GoBack | | Continue 








图 6-1: macOS 的 MySQL 安装 工具 


采用 默认 安装 步骤 就 可 以 ， 本 书后 面 都 假设 你 采用 的 是 默认 安装 步骤 。 











如 果 觉 得 下 载 安装 包 再 运行 安装 工具 太 无 聊 ， 也 可 以 用 macOSg 的 包 管 理 器 Homebrew 安 
装 。 当 Homebrew 安装 好 以 后 ， 用 下 面 的 命令 安装 MySQL: 


$ brew install mysql 

















Homebrew 是 一 个 伟大 的 开源 工具 ， 与 Python 包 完 美 结合 。 其 实 ， 本 书 使 用 的 大 多 数 
Python 第 三 方 库 都 可 以 用 Homebrew 安装 。 如 果 你 还 设 用 过 ， 强 烈 推 荐 你 试 一 下 ! 








在 macOS 上 安装 好 MySQL 之 后 ， 你 可 以 用 下 录 











i 的 命令 启动 MySQL 服务 器 : 





$ cd /usr/local/mysql 
$ sudo ./bin/mysqld_safe 

















你 安装 MySQL (参见 图 6-2)。 


在 Windows 系统 上 ， 安 装 和 运行 MySQL 更 复杂 一 些 ， 但 是 有 个 方便 的 安装 工具 http:// 
dev.mysql.com/downloads/windows/installer/) 可 以 简化 这 个 过 程 。 下 载 该 工具 后 ， 它 会 引导 
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Welcome 


The MySQL Installer guides you through the instalation and configuration of your 
MySQL products. Run it from the Start Menu to perform maintenance tasks later. 


Select one of the actions below: 


Instal MySQL Products 
[EE x Guide you through the installation and configuration of your 
~ MySQL products, 


About MysQL 
1 Learn more about MySQL products and better understand how 


you can benefit the most, 


Resources 
Get more information on how to install MySQL and configure it 
to run effidently on your madhine, 


Copyrgh © 2014, Grade ardlgr ns aiases AI rghes reserved, Ode 5 a regstered vademark of 
ts ORACLE 














图 6-2; Windows 的 MySQL 安装 工具 


用 默认 选项 安装 MySQL 就 可 以 ， 不 过 有 一 个 地 方 要 注意 : 在 Setup Type (类 型 设置 ) 页 面 ， 
建议 你 选择 “Server Only”( 只 选 服务 器 ) 选项 ， 这 可 以 避免 安装 一 堆 微 软 的 软件 和 库 文件 。 
然后 ， 你 就 可 以 用 默认 设置 安装 ， 跟 着 提示 一 步 步 操作 就 可 以 启动 MySQL 服务 器 了 。 


6.3.2 ”基本 命令 

MySQL 服务 器 启动 之 后 ， 可 以 通过 多 种 方法 与 数据 库 交 互 。 因 为 有 很 多 工具 具有 图 
形 界面 ， 所 以 你 不 用 MySQL 的 命令 行 (或 者 很 少 用 命令 行 ) 也 能 管理 数据 库 。 像 
phpMyAdmin 和 MySQL Workbench 这 类 工具 都 可 以 很 容易 地 实现 数据 的 查看 、 排 序 和 插 
入 。 但 是 ， 掌 握 通 过 命令 行 来 操作 数据 库 依然 是 很 重要 的 。 


除了 用 户 自 定 义 变量 名 ，MySQL 是 不 区 分 大 小 写 的。 例如 ，SELECT 和 sELEcT 是 一 样 的 ， 
不 过 习惯 上 写 MySQL 语句 的 时 候 所 有 的 MySQL 关键 词 都 用 大 写 。 大 多 数 开发 者 还 喜欢 
用 小 写字 母 表 示 数 据 表 和 数据 库 的 名 称 ， 虽 然 这 个 标准 经 常 不 被 注意 。 


当 你 首次 登录 MySQL 的 时 候 ， 里面 是 没有 数据 库 来 存放 数据 的 。 你 可 以 创建 一 个 : 








> CREATE DATABASE scraping; 





因为 每 个 MySQL 实例 可 以 有 多 个 数据 库 ， 所 以 使 用 数据 库 之 前 需要 指定 要 使 用 的 数据 库 
的 名 称 : 





> USE scraping; 


从 现在 开始 (直到 关闭 MySQL 链接 或 切换 到 另 一 个 数据 库 ) ， 所 有 的 命令 都 运行 在 这 个 新 
的 scraping 数据 库 里 面 。 














所 有 操作 看 着 都 非常 简单 。 在 数据 库 里 创建 数据 表 应 该 也 很 简单 吧 ? 让 我 们 在 数据 库 里 创 
建 一 个 表 来 存储 抓 取 的 网 页 : 














> CREATE TABLE pages; 
结果 显示 错误 : 
ERROR 1113 (42000): A table must have at least 1 column 


数据 库 可 以 没有 表 ， 但 MySQL 数据 表 必 须 至 少 有 一 列 ， 否 则 不 能 创建 。 为 了 在 MySQL 
里 定义 字段 (数据 列 )， 必 须 在 CREATE TABLE <tablename> 语句 后 面 ， 把 字段 的 定义 放 进 一 
个 带 括号 的 、 内 部 由 逗号 分 隔 的 列表 中 : 














> CREATE TABLE pages (id BIGINT(7) NOT NULL AUTO_INCREMENT, 
title VARCHAR(200), content VARCHAR(10000), 
created TIMESTAMP DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY(id)); 





每 个 字段 定义 由 3 部 分 组 成 : 


。 名 称 (id、title、created 等 ) 
。 数据 类 型 (BIGINT(7)、VARCHAR、TIMESTAMP) 
。 其 他 可 选 属性 (NOT NULL AUTO_INCREMENT) 











在 字段 定义 列表 的 最 后 ， 还 要 定义 一 个 主键 (key)。MySQL 用 这 个 主键 来 组 织 表 的 内 容 ， 
以 便于 后 面 快速 查询 。 本 章 后 面 将 介绍 如 何 利用 这 些 主键 以 提高 数据 库 的 查询 速度 ， 但 是 
现在 ， 用 表 的 id 列 作为 主键 就 可 以 。 














语句 执行 之 后 ， 你 可 以 用 DESCRIBE 查看 数据 表 的 结构 : 


> DESCRIBE pages; 


+--------- +---------------- +------ +----- +------------------- +---------------- + 
| Field | Type | Null | Key | Default | Extra | 
+--------- +---------------- +------ +----- +------------------- +---------------- + 
| id | bigint(7) | NO | PRI | NULL | auto_increment | 
| title | varchar(200) | YES | | NULL | | 
| content | varchar(10000) | YES | | NULL | | 
| created | timestamp | NO | | CURRENT_TIMESTAMP | | 
+--------- +---------------- +------ +----- +------------------- +---------------- + 


4 rows in set (0.00 sec) 





存储 数据 | 79 


当然 ， 这 还 是 一 个 空 表 。 你 可 以 在 pages 表 里 插 入 一 些 测试 数据 ， 如 下 所 示 : 








> INSERT INTO pages (title, content) VALUES ("Test page title", 
"This is some test page content. It can be up to 10,000 characters 
long."); 


需要 注意 的 是 ， 虽 然 pages 表 里 有 4 个 字段 (id、title、content、created),， 但 实际 上 
尔 只 需要 插入 2 个 字段 (title 和 content) 的 数据 即 可 。 这 是 因为 id 字段 是 自动 递增 的 
(每 次 新 插入 数据 行 时 MySQL 自动 增加 1)， 通 常 不 用 处 理 。 另 外 ，created 字段 的 类 型 是 
tinestanp， 默 认 就 是 数据 加 入 时 的 时 间 改 。 














当然 ， 我 们 也 可 以 自 定 义 4 个 字段 的 内 容 : 





> INSERT INTO pages (id, title, content, created) VALUES (3， 

"Test page title", 

"This is some test page content. It can be up to 10,000 characters 
long.", "2014-09-21 10:25:32"); 


只 要 你 定义 的 整数 在 数据 表 的 id 字段 里 没有 ， 它 就 可 以 顺利 插入 数据 表 。 但 是 ， 这 么 做 
非常 不 好 ; 除非 万 不 得 已 (比如 程序 中 断 漏 了 一 行 数据 )， 否 则 最 好 让 MySQL 自己 处 理 
id 和 timestamp 字段 。 





现在 表 里 有 一 些 数据 了 ， 你 可 以 用 很 多 方法 来 选择 这 些 数据 。 下 面 是 几 个 SELECT 语句 的 
示例 : 








> SELECT * FROM pages WHERE id = 2; 


这 条 语句 告诉 MySQL,“ 从 pages 表 中 把 id 字段 等 于 2 的 整 行 数据 全 挑选 出 来 "。 这 个 
星 号 (*) 是 通配符 ,表示 所 有 字段 ， 这 条 语句 会 把 满足 条 件 (WHERE id = 2) 的 所 有 行 
的 所 有 字段 都 显示 出 来 。 如 果 没 有 任何 一 行 的 id 字段 等 于 2， 就 会 返回 一 个 空 集 。 例 如 ， 
下 面 这 个 不 区 分 大 小 写 的 查询 ， 会 返回 title 字段 里 包含 “test” 的 所 有 行 (% 符 号 表示 
MySQL 字符 串通 配 符 ) 的 所 有 字段 : 


























> SELECT * FROM pages WHERE title LIKE "%test%"; 





但 是 ， 如 果 你 的 表 有 很 多 字段 ， 而 你 只 想 返 回 部 分 字段 怎么 办 ? 你 可 以 不 用 星 号 ， 而 用 下 
面 的 方式 : 




















> SELECT id, title FROM pages WHERE Content LIKE "%page content%"; 





这 样 就 只 会 返回 content 字段 包含 “page content” 的 所 有 行 的 id 和 title 两 个 字段 了 。 








DELETE 语句 的 语法 与 SELECT 语句 类 似 : 


> DELETE FROM pages WHERE id = 1; 








由 于 数据 库 的 数据 删除 后 不 能 恢复 ， 所 以 在 执行 DELETE 语句 之 前 ， 建 议 用 SELECT 确认 
一 下 要 删除 的 数据 (本 例 中 ， 就 是 用 SELECT * FROM pages WHERE id = 1 查看 )， 然 后 把 
SELECT * 换 成 DELETE 就 可 以 了 ， 这 会 是 一 个 好 习惯 。 很 多 程序 员 都 有 过 DELETE 误 操 作 的 
伤心 往事 ， 还 有 一 些 人 在 慌乱 中 忘 了 在 语句 中 放 WHERE， 结 果 把 所 有 客户 数据 都 删除 了 。 
别 让 这 种 事 发 生 在 你 身上 1! 


在 使 用 UPDATE 语句 时 也 要 小 心 谍 慎 : 























> UPDATE pages SET title="A new title", 
content="Some new content" WHERE id=2; 














结合 本 书 的 主题 ， 后 面 我 们 就 只 用 这 些 基 本 的 MySQL 语句 ， 做 一 些 简单 的 数据 查询 、 创 
建 和 更 新 工作 。 如 果 你 对 这 个 强大 的 数据 库 工 具 的 命令 和 技术 感 兴趣 ， 推 荐 你 去 看 Paul 
DuBois 的 MySQOL Cookbook。 











6.3.3 与 Python 整合 
Python 没有 内 置 的 MySQL 支持 工具 。 不 过 ， 有 很 多 开源 的 库 可 以 用 来 与 MySQL 做 交互 ， 
Python 2.x 和 Python 3.x 版 本 都 支持 。 其 中 最 有 名 的 一 个 库 就 是 PyMySQL。 





写作 本 书 的 时 候 ，PyMySQL 的 版 本 是 0.6.7， 可 以 用 pip 安装 : 


$ pip install PyMySQL 





如 果 需 要 使 用 指定 版 本 的 PyMySQL， 可 以 下 载 源 文件 进行 安装 : 


$ curl -L https://pypi.python.org/packages/source/P/PyMySQL/PyMySQL-0.6.7.tar.gz\ 
| tar xz 

$ cd PyMySQL-PyMySQL-f953785/ 

$ python setup.py install 


安装 完成 之 后 ， 你 就 可 以 使 用 PyMySQL 包 了 。 如 果 你 的 本 地 MySQL 服务 器 处 于 运行 状 
态 ， 应 该 可 以 成 功 地 执行 下 面 的 命令 (记得 把 root 账户 密码 加 进 数 据 库 ) : 


一 





import pymysql 

conn = pymysql.connect(host='127.0.0.1', unix_socket='/tmp/mysql.sock', 
User='root', passwd=None, db='mysql') 

cur = conn.cursor() 

cur .execute( 'USE scraping') 

Cur.execute('SELECT * FROM pages WHERE id=1') 

print(cur.fetchone()) 

cur.close() 

conn.close() 


这 段 程序 有 两 个 新 对 象 类 型 : 连接 对 象 (conn) 和 光标 对 象 cur)。 
连接 /光标 模式 是 数据 库 编程 中 常用 的 模式 ， 不 过 刚刚 接触 数据 库 的 时 候 ， 有 些 用 户 很 难 
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区 分 这 两 种 模式 的 不 同 。 连 接 模 式 除了 要 连接 数据 库 之 外 ， 还 要 发 送 数 据 库 信息 ， 处 理 回 
六 操作 〈 当 一 个 查询 或 一 组 查询 被 中 断 时 ， 数 据 库 需要 回 到 初始 状态 ， 一 般 用 事务 控制 手 
段 实现 状态 回 滚 ) ， 创 建新 的 光标 对 象 ， 等 等 。 


而 一 个 连接 可 以 有 很 多 个 光标 。 一 个 光标 跟踪 一 种 状态 (state) 信息 ， 比 如 正在 使 用 的 是 
哪个 数据 库 。 2 且 需 要 向 所 有 数据 库 写 内 容 ， 就 需要 多 个 光标 来 进行 
处 理 。 光 标 还 会 包含 最 后 一 次 查询 执行 的 结果 。 通 过 调用 光标 函数 ， 比 如 cur.fetchone()， 
可 以 获取 查询 结果 。 


用 完 光标 和 连接 之 后 ， 千 万 要 记得 把 它们 关闭 。 如 果 不 关闭 就 会 导致 连接 泄漏 (connection 
leak)， 造 成 一 种 未 关闭 连接 现象 ， 即 连接 已 经 不 再 使 用 ,但 是 数据 库 却 不 能 关闭 ， 因 为 数 
据 库 不 确定 你 还 要 不 要 继续 使 用 它 。 这 种 现象 会 一 直 耗 费 数据 库 的 资源 (我 曾经 写 过 也 修 
复 过 很 多 连接 泄漏 bug)， 所 以 用 完 数据 库 之 后 记得 关闭 连接 ! 


刚 开始 的 时 候 ， 你 最 想 做 的 事情 可 能 就 是 把 抓 取 的 结果 保存 到 数据 库 里 。 让 我 们 用 前 面 维 
基 百 科 怜 虫 的 例子 来 演示 一 下 如 何 实现 数据 存储 。 



























































在 进行 网 页 抓 取 时 ， 处 理 Unicode 字符 串 是 很 痛 兰 的 事情 。 默 认 情 况 下 ，MYySQL 也 不 支 
持 Unicode 字符 处 理 。 不 二 你 可 以 开 居 闻 个 功能 (只 是 要 记 住 ， 这么 做 会 增加 数据 库 的 占 
用 空间 )。 因 为 在 维基 百科 上 我 们 难免 会 遇 到 各 种 各 样 的 字符 ， 所 以 最 好 一 开始 就 让 你 的 
数据 库 支 持 Unicode: 























ALTER DATABASE scraping CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode ci; 
ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode ci; 
ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE 
utf8mb4_unicode_ci; 

ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4 CO 
LLATE utf8mb4_unicode _ ci; 


这 4 行 语句 将 数据 库 、 数 据 表 以 及 两 个 字段 的 默认 编码 都 从 utf8mb4 (严格 说 来 也 属于 
Unicode， 但 是 对 大 多 数 Unicode 字符 的 支持 都 非常 不 好 ) 转变 成 了 utf8mb4_unicode_ci。 











你 可 以 在 titte 或 content 字段 中 插入 一 些 德语 变 音符 (umlauts) 或 汉语 字符 ， 如 有 果 设 有 
错误 ， 就 表示 转换 成 功 了 。 


现在 数据 库 已 经 准备 好 接收 维基 百科 的 各 种 信息 了 ， 你 可 以 用 下 面 的 程序 来 存储 数据 : 








from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import datetime 

import random 

import pymysql 

import re 


conn = pymysql.connect(host='127.0.0.1', unix_socket='/tmp/mysql.sock', 
User='root', passwd=None, db='mysql', charset='utf8') 





Cur 


cur. 


= conn.cursor() 
execute("USE scraping") 


random. seed(datetime.datetime.now()) 


def 


def 


store(title, content): 

cur .execute('INSERT INTO pages (title, content) VALUES ' 
'("%s", "%s")', (title, content)) 

cur.connection.commit() 


getLinks(articleUrl): 

html = urlopen('http://en.wikipedia.org'+articleUrl) 

bs = BeautifulSoup(html, 'html.parser') 

title = bs.find('h1').get text() 

content = bs.find('div', {'id':'mw-content-text'}).find('p') 
.get_text() 

store(title, content) 

return bs.find('div', {'id':'bodyContent'}).findAll('a', 
href=re.compile( '^(/wiki/)((?!:).)*$')) 


Links = getLinks('/wiki/Kevin_ Bacon') 


try: 


while len(links) > 0: 
newArticle = links[random.randint(0, len(links)-1)].attrs['href'] 
print(newArticle) 
links = getLinks(newArticle) 


finally: 


cur.close() 
conn.close() 


这 里 有 几 点 需要 注意 : 首先 ，charset='utf8' 要 添加 到 连接 字符 串 里 。 这 是 让 连接 conn 把 
所 有 发 送 到 数据 库 的 信息 都 当成 UTF-8 编码 格式 〈 当 然 ， 前 提 是 数据 库 默 认 编码 已 经 设置 
成 UTF-8)。 











然后 要 注意 的 是 store 函数 。 它 有 两 个 参数 ，title 和 content， 并 把 这 两 个 参数 添加 到 了 
一 个 INSERT 语句 中 并 用 光标 执行 ， 然 后 用 光标 进行 连接 确认 。 这 是 一 个 让 光标 与 连接 操作 
分 离 的 好 例子 ， 当 光标 里 存储 了 与 数据 库 和 数据 库 上 下 文 (context) 相关 的 信息 时 ， 它 

要 通过 连接 的 确认 操作 先 将 信息 传 进 数 据 库 ， 再 将 信息 插入 数据 库 。 


最 后 要 注意 的 是 ，finally 语句 是 在 程序 主 循环 的 外 面 ， 代 码 的 最 底下 。 这 样 做 可 以 保证 ， 
就 算 程序 执 过 程 中 发 生 中 断 或 抛 出 异常 (因为 Web 很 复杂 ， 所 以 你 得 随时 准备 遭遇 异 


常 )， 


光标 和 连接 都 会 在 程序 结束 前 立即 关闭 。 无 论 你 是 在 抓 取 网 页 ， 还 是 处 理 一 个 打开 
的 数据 库 连 接 ， 用 try...finally 都 是 一 个 好 主意 。 




































































虽然 PyMySQL 规模 并 不 大 ， 但 是 里 面 有 很 多 非常 实用 的 函数 ， 本 书 无 法 一 一 介绍 。 具 体 


请 参考 PyMySQL 站 点 上 的 文档 。 
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6.3.4 数据库 技术 与 最 佳 实 践 

有 些 人 的 整个 职业 生涯 都 在 学 习 、 优 化 和 创造 数据 库 。 我 不 是 这 类 人 ， 这 本 书 也 不 是 那 类 
书 。 但 是 ， 和 计算 机 科学 的 很 多 主题 一 样 ， 有 一 些 技巧 你 其 实 可 以 很 快 地 学 会 ， 它 们 至 少 
可 以 让 你 的 数据 库 适 用 于 大 多 数 情况 ， 而 且 运 行 速 度 足 够 快 。 


首先 ， 总 是 给 每 个 数据 表 都 增加 一 个 id 字段 。MySQL 里 所 有 的 表 都 至 少 有 一 个 主键 (就 
是 MySQL 用 来 排序 的 字段 )， 因 此 MySQL 知道 怎么 组 织 主键 ， 通 常数 据 库 很 难 智能 地 先 
择 主键 。 


究竟 是 用 人 造 的 id 字段 作为 主键 ， 还 是 用 那些 具有 唯一 性 属性 的 字段 作为 主键 ， 比 如 
username 字段 ， 数 据 科学 家 和 软件 工程 师 已 经 争论 了 很 多 年 ， 我 更 倾向 于 主动 创建 一 个 
id 字段 。 尤 其 是 当 你 抓 取 并 存储 其 他 人 的 数据 时 ， 你 并 不 知道 哪些 是 唯一 的 哪些 是 非 唯 一 
的 ， 至 少 我 就 遇 到 过 这 样 的 情况 。 


你 应 该 用 自 增 的 id 字段 作为 你 的 所 有 表格 的 主键 。 


其 次 ， 用 智能 索引 。 字 典 ( 指 的 是 常用 的 工具 书 ， 不 是 指 Python 的 字典 对 象 ) 是 按照 字 
母 顺 序 排列 的 单词 表 。 这 让 你 可 以 快速 地 找到 一 个 单词 ， 只 要 你 知道 这 个 单词 是 如 何 拼写 
的 。 你 还 可 以 想象 一 个 将 单词 按照 单词 定义 的 字母 顺序 进行 排列 的 字典 。 除 非 你 在 玩 《 危 
险 边缘 》(Jeopardy) 这 样 奇 怪 的 智力 游戏 ， 给 出 定义 ， 让 你 猿 单词 ， 否 则 这 样 的 字典 就 没 
什么 用 了 。 但 是 在 数据 库 查 询 中 ， 这 种 按照 字段 含义 进行 排序 的 情况 时 有 发 生 。 比 如 ， 你 
的 数据 库 里 可 能 有 一 个 字段 经 常 要 查询 : 








































































































>SELECT * FROM dictionary WHERE definition="A smaLL furry animal that says meow"; 


+------ +------- 4 + 
| id | word | definition | 
+------ +------- 4 + 
| 200 | cat | A small furry animal that says meow | 
+------ +------- 4 + 


1 row in set (0.00 sec) 


你 可 能 想 给 这 个 表 的 definition 字段 添加 一 个 索引 (除了 iid 字段 可 能 已 经 存在 的 索引 之 
外 )， 让 这 个 字段 的 查询 变 得 更 快 。 但 是 ， 增 加 索引 需要 占用 更 多 的 空间 ， 而 且 插入 新 行 
的 时 候 也 需要 更 多 的 处 理 时 间 。 尤 其 是 当 处 理 大 量 的 数据 时 ， 你 应 该 仔细 权衡 你 的 索引 和 
你 需要 多 少 索 引 。 为 了 让 这 个 “定义 ”索引 简单 点 儿 ， 你 可 以 让 MySQL 只 检索 字段 值 的 
一 部 分 字符 。 比 如 下 面 的 命令 创建 了 一 个 查询 definition 字段 前 16 个 字符 的 智能 索引 : 









































CREATE INDEX definition ON dictionary (id, definition(16)); 





在 根据 完整 定义 搜索 单词 时 ， 这 个 索引 会 使 查询 速度 快 很 多 (尤其 是 前 16 个 字符 彼此 有 
很 大 不 同时 )， 而 且 不 需要 占用 过 多 的 空间 和 处 理 时 间 。 








关于 数据 查询 时 间 和 数据 库 大 小 (数据库 工程 中 一 个 基本 的 平衡 做 法 )， 一 个 常见 的 错误 


就 是 在 数据 库 中 存储 大 量 重复 数据 ， 尤 其 是 在 对 大 量 自然 语 
例子 ， 假 设 你 想 统计 网 站 上 突然 出 现 的 一 








列表 里 获得 ， 也 许可 以 通过 文本 分 析 算 法 





+-------- +-------------- +------ +--- 
| Field | Type | Null | Ke 
+-------- +-------------- +------ +--- 
| id | int(11) | NO | PR 
| url | varchar(200) | YES | 

| phrase | varchar(200) | YES | 

+-------- +-------------- +------ +--- 


< 


言 数据 进行 网 页 抓 取 时 。 举 个 
些 词 组 的 频率 。 这 些 词 组 也 许可 以 从 一 个 现成 的 


自动 提取 。 最 终 你 可 能 会 把 词组 存储 成 如 下 形式 : 








--+--------- +---------------- + 
y | Default | Extra 
--+--------- +---------------- + 
I | NULL | auto_increment | 
| NULL | | 
| NULL | | 
--+--------- +---------------- + 


每 当 你 发 现 一 个 词组 ， 就 在 数据 库 中 增加 一 行 ， 同时 把 URL 记录 下 来 。 但 是 ， 如 果 把 这 
些 数据 分 成 3 个 表 ， 数 据 库 占用 的 空间 就 会 大 大 减少 。 





>DESCRIBE phrases 


+-------- +-------------- +------ +--- 
| Field | Type | Null | Ke 
+-------- +-------------- +------ +--- 
| id | int(11) | NO | PR 
| phrase | varchar(200) | YES | 
+-------- +-------------- +------ +--- 
>DESCRIBE urls 

+-------- +-------------- +------ +--- 
| Field | Type | Null | Ke 
+-------- +-------------- +------ +--- 
| id | int(11) | NO | PR 
| url | varchar(200) | YES | 
+-------- +-------------- +------ +--- 
>DESCRIBE foundInstances 
+------------- +--------- +------ +--- 
| Field | Type | Null | Ke 
+---- +--------- +------ +--- 
| id | int(11) | NO | PR 
| urtLId | int(11) | YES | 

| phraseId | int(11) | YES | 

| occurrences | int(11) | YES | 
+---- +--------- +------ +--- 


虽然 表 定 义 的 结构 变 复 杂 了 ， 但 是 大 部 分 字段 都 是 id 字段 。 它 们 是 整数 ， 不 


--+--------- +---------------- + 
y | Default | Extra 
-+-- +---------------- + 
I | NULL | auto_increment | 
| NULL | | 
--+--------- +---------------- + 
--+--------- +---------------- + 
y | Default | Extra 
--+--------- +---------------- + 
I | NULL | auto_increment | 
| NULL | | 
--+--------- +---------------- + 
--+--------- +---------------- + 
y | Default | Extra 
--+--------- +---------------- + 
I | NULL | auto_increment | 
| NULL | | 
| NULL | | 
| NULL | | 
-+-- +---------------- + 
会 占用 很 多 


空间 。 另 外 ， 每 个 URL 和 词组 都 只 会 存储 一 次 。 








除非 你 安装 了 第 三 方 包 或 保存 详细 的 数据 库 日 志 ， 否 则 你 无 法 掌握 数据 库 里 数据 增加 、 更 
新 或 删除 的 具体 时 间 。 因 此 ， 取 决 于 数据 的 可 用 空间 、 变 更 的 频率 以 及 确定 变更 时 间 的 重 
要 性 ， 你 可 以 考虑 在 创建 、 更 新 或 删除 数据 时 加 一 个 时 间 截 。 
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6.3.5 MySQL 里 的 “六 度 空间 游戏 ” 

在 第 3 章 ， 我 们 介绍 过 “维基 百科 六 度 分 隔 ” 问 题 ， 其 目标 是 通过 一 些 词 条 链接 寻找 两 个 
词 条 间 的 联系 〈 即 找 出 一 条 链接 路 径 ， 只 要 点 击 链接 就 可 以 从 一 个 维基 词 条 到 达 另 一 个 
维基 词 条 )。 为 了 解决 这 个 问题 ， 我 们 不 仅 需 要 建立 网 络 疏 虫 抓 取 网 页 (之 前 我 们 已 经 做 
过 )， 还 要 把 抓 取 的 信息 以 某 种 形式 存储 起 来 ， 以 便 后 续 进行 数据 分 析 。 




















前 面 介绍 过 的 自 增 的 id 字段 、 时 间 惟 以 及 多 份 数 据 表 这 里 都 要 用 到 。 为 了 确定 最 合理 的 
信息 存储 方式 ， 你 需要 进行 抽象 思考 。 一 个 链接 可 以 轻易 地 把 页 面 A 连接 到 页 面 B。 同 
样 也 可 以 轻易 地 把 页 面 B 连接 到 页 面 A， 不 过 这 可 能 是 另 一 个 链接 。 我 们 可 以 这 样 识 别 
一 个 链接 ， 即 “页 面 A 存在 一 个 链接 ， 可 以 连接 到 页 面 B。 也 就 是 INSERT INTO Links 
(fromPageId，toPageId) VALUES (A, B); (其 中 ,A 和 B 分 别 表示 两 个 页 面 的 ID 号 )”。 






























































因此 需要 设计 一 个 带 有 两 张 数 据 表 的 数据 库 来 分 别 存储 页 面 和 链接 ， 两 张 表 都 带 有 创建 时 
间 和 唯一 的 ID 号 ， 代 码 如 下 所 示 : 





CREATE TABLE “wikipedia . pages (人 
‘id INT NOT NULL AUTO_INCREMENT ， 
`“UrL”VARCHAR(255) NOT NULL， 
“created ”TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP, 
PRIMARY KEY (“id*)); 


CREATE TABLE “wikipedia .Litnks ( 
“id INT NOT NULL AUTO_INCREMENT ， 
`fromPageId ”INT NULL, 
‘topPagelId INT NULL ， 
“created ”TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP, 
PRIMARY KEY (“id*)); 














注意 ， 这 里 和 前 面 打印 页 面 标题 的 聆 虫 不 同 ， 我 没有 在 页 面 数 据 表 里 使 用 页 面 标题 字段 。 
为 什么 呢 ? 其 实 是 因为 页 面 标题 得 在 你 进入 页 面 后 才能 抓 到 。 如 果 我 们 想 创建 一 个 高 效 的 
疏 虫 来 填充 这 些 数据 表 ， 那 么 只 存储 页 面 的 链接 就 可 以 保存 词 条 页 面 了 ， 甚 至 不 需要 访问 
词 条 页 了 
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当然 ， 并 不 是 所 有 网 站 都 具有 这 个 特点 ， 但 是 维基 百科 的 词 条 链接 和 对 应 的 页 面 标题 是 可 
以 通过 简单 的 操作 进行 转换 的 。 例 如 ，http:/en.wikipedia.org/wikiMonty Python 表明 了 页 
下 标题 是 “Monty Python  。 
































下 面 的 代码 会 把 “ 贝 肯 数 ”( 一 个 页 
基 百 科 页 面 存 储 起 来 : 





下 与 凯 文 ， 贝 肯 词 条 页 面 之 间 的 链接 数 ) 不 超过 6 的 维 

















from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import pymysql 

from random import shuffle 
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conn = pymysqL.connect(host='127.0.0.1' ，uUnix_socket=' /tmp/mysqL.sock ' ， 
User='root', passwd=None, db='mysql', charset='utf8') 

cur = conn.cursor() 

cur .execute( 'USE wikipedia') 


def insertPpageIfNotExists(url): 

cur.execute('SELECT * FROM pages WHERE url = %s', (url)) 

if cur.rowcount == 0: 
cur.execute('INSERT INTO pages (url) VALUES (%s)', (url)) 
conn.commit() 
return cur.lastrowid 

else: 
return cur.fetchone()[0] 


def LoadPages() : 
CUr .execute('SELECT * FROM pages') 
pages = [row[1] for row in cur.fetchall()] 
return pages 


def insertLink(fromPageId，toPageId) : 
CUr .exeCute( "SELECT * FROM links WHERE fromPageId = %s ' 
'AND toPageId = %s'，(int(fromPageId)，iLnt(toPageId))) 
if cur.rowcount == 0: 
cur .execute('INSERT INTO Links (fromPageId，toPageId) VALUES (%s, %s)', 
(int(frompageId), int(topagelId))) 
conn.commit() 


def getLinks(pageUrl, recursionLevel, pages): 
if recursionLevel > 4: 
return 


pageId = insertPpageIfNotExists(pageUrl) 

html = urlopen('http://en.wikipedia.org{}' .format(pageUrL) ) 

bs = BeautifulSoup(html, 'html.parser') 

links = bs.findAll('a', href=re.compile('^(/wiki/)((?!:).)*$')) 
Links = [Link.attrs['href'] for link in links] 


for Link in Links : 
insertLink(pageId，insertPageIfNotExists(Link)) 
if Link not in pages: 
# 遇 到 一 个 新 页 面 ， 加 入 集合 并 搜索 里 面 的 词 条 链接 
pages.append(Link) 
getLinks(link, recursionLevel+1, pages) 




















getLinks('/wiki/Kevin_Bacon', 0, loadPages()) 
cur.close() 
conn.close() 


这 里 有 3 个 函数 使 用 PyMySQL 与 数据 库 进 行 了 交互 。 





存储 数据 | 87 


insertPageIfNotExists 
正如 其 名 称 所 示 ， 当 页 面 不 存在 时 ， 该 函数 会 插入 一 个 新 的 页 面 记录 。 该 页 面 以 及 其 他 
已 经 抓 取 的 页 面 作为 列表 存储 在 pages 变量 中 ， 以 确保 页 面 记录 不 会 重复 。 它 也 提供 了 
一 个 供 查 询 的 pageId 数 ， 以 创建 新 的 链接 。 



























































insertLink 
该 函数 在 数据 库 中 创建 一 个 新 的 链接 。 如 果 该 链接 已 经 存在 ， 则 不 会 创建 。 如 果 同 一 个 
页 面 中 存在 两 个 或 者 多 个 相同 的 链接 ， 我 们 会 将 其 当 作 同 一 个 链接 ， 表 示 同 样 的 关系 ， 
并 且 应 该 被 当 作 一 条 记录 。 这 样 ， 如 果 程 序 对 同一 页 面 运行 多 遍 ， 也 有 助 于 维护 数据 库 
的 一 致 性 。 



































LoadPages 
该 函数 将 当前 所 有 页 面 从 数据 库 加 载 到 一 个 列表 中 ， 这 样 可 以 确定 新 的 页 面 是 否 被 访 
问 过 。 在 程序 运行 时 也 会 收集 页 面 ， 因 此 如 果 从 一 个 空 的 数据 库 开 始 ， 爬 虫 仅仅 运 行 
一 遍 ， 那 么 理论 上 说 LoadPages 是 不 需要 的 。 实 际 上 ， 这 会 导致 问题 。 原 因 是 网 络 可 
能 会 中 断 ， 或 者 你 希望 在 不 同 的 时 间 段 抓 取 各 链接 ， 因 此 让 怜 虫 可 以 重新 自我 加 载 非常 
重要 。 





















































你 应 该 注意 的 是 使 用 LoadPages 可 能 导致 的 潜在 问题 ， 以 及 为 了 确定 页 面 是 否 被 访问 过 而 
生成 的 页 面 列表 : 当 每 个 页 面 被 加 载 时 ， 页 面 上 所 有 的 链接 会 被 立刻 存储 为 页 面 ， 即 使 这 
些 页 面 从 未 被 访问 过 一 一 仅仅 是 这 些 链接 被 发 现 了 。 如 果 爬 虫 被 停止 然后 重启 ， 所 有 这 些 
“被 发 现 但 是 未 访问 的 ”页 面 将 永远 不 会 被 访问 ， 而 来 自 这 些 页 面 的 链接 也 不 会 被 记录 下 
来 。 该 问题 可 以 通过 在 每 个 页 面 记录 中 加 入 一 个 布尔 变量 visited 来 解决 ， 并 且 仅 当 页 面 
被 加 载 以 及 其 自身 的 外 链 被 记录 ， 才 将 该 变量 的 值 设置 为 True。 

对 于 我 们 的 目标 来 说 ， 这 个 解决 方案 是 可 行 的 。 如 果 你 能 保证 足够 长 的 运行 时 间 (或 者 是 
单 次 运行 时 间 )， 那 么 完整 的 链接 集合 (用 于 实验 的 较 大 数据 集 ) 并 不 是 必需 的 ， 也 就 意 


味 着 visited 变量 不 是 必需 的 。 










































































关于 该 问题 以 及 从 Kevin Bacon (https://en.wikipedia.org/wiki/Kevin Bacon) 到 Eric Idle 
(https://en.wikipedia.org/wiki/Eric_Idle) 的 最 终 解 决 方案 ， 请 查看 9.2 节 中 关于 有 向 图 问题 
的 求解 。 





6.4 Email 


与 网 页 通过 HTTP 协议 传输 一 样 ， 邮 件 是 通过 SMTP (Simple Mail Transfer Protocol， 简 
单 邮件 传输 协议 ) 传输 的 。 而 且 ， 与 你 用 Web 服务 器 的 客户 端 (浏览 器 ) 通过 HTTP 协 
议 传输 网 页 一 样 ， 服 务 器 使 用 各 种 Email 客户 端 收 发 邮件 ， 比 如 Sendmail、Postfix 和 


; 2 
Mailman 等 。 
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虽然 用 Python 发 邮件 很 容易 ， 但 是 需要 你 连接 一 台 运 行 SMTP 协议 的 服务 器 。 在 服务 器 
或 本 地 机 器 上 设置 SMTP 客户 端 有 点 儿 复杂 ， 也 超出 了 本 书 的 范围 ， 但 是 有 很 多 资料 可 以 


帮 你 解决 问题 ， 如 果 你 用 的 是 Linux 或 macOS 和 系统， 参考 资料 会 更 丰富 。 

















下 面 的 代码 运行 的 前 提 是 你 的 电脑 正在 运行 一 个 SMTP 客户 端 。( 如 果 要 调整 代码 用 于 远 


程 SMTP 客户 端 ， 请 把 locathost 改 成 远程 服务 器 的 地 址 。) 








用 Python 发 一 封 邮件 只 要 9 行 代码 : 


import smtplib 
from email.mime.text import MIMEText 


msg = MIMEText('The body of the email is here') 
msg['Subject'] = 'An Email Alert' 

msg['From'] = 'ryan@pythonscraping.com' 
msg['To'] = 'webmaster@pythonscraping.com' 

s = smtplib.SMTP('localhost') 


s.send_message(msg) 
s.quit() 


Python 有 两 个 重要 的 包 可 以 发 送 邮件 : smtplib 和 email。 





Python 的 email 模块 里 包含 了 许多 实用 的 邮件 格式 设置 函数 ， 可 以 用 来 创建 邮件 “ 包 库 ”。 





示例 中 使 用 的 MIMEText 对 象 为 底层 的 MIME (Multipurpose Internet Mail Extensions ， 
途 互联 网 邮件 扩展 ) 协议 传输 创建 了 一 封 空 邮件 ， 最 后 通过 高 层 的 SMTP 协议 发 送 


MIMEText 对 象 msg 包括 收发 邮件 地 址 、 邮 件 正文 和 主题 ，Python 通过 它 就 可 以 创建 一 








式 正确 的 邮件 。 


多 用 





出 去 。 


封 格 


smtplib 模块 用 来 设置 服务 器 连接 的 相关 信息 。 就 像 MySQL 服务 器 的 连接 一 样 ， 这 个 连接 





必须 在 用 完 之 后 及 时 关闭 ， 以 避免 同时 创建 太 多 连接 而 浪费 资源 。 
把 这 个 简单 的 邮件 程序 封装 成 函数 后 ， 可 以 更 方便 地 扩展 和 使 用 : 





import smtplib 

from email.mime.text import MIMEText 
from bs4 import BeautifulSoup 

from urllib.request import urlopen 
import time 


def sendMail(subject, body): 
msg = MIMEText(body) 
msg['Subject'] = subject 
msg['From'] ='christmas_aLertsQpythonscraping.com' 
msg['To'] = 'ryanQpythonscraping.com' 


s = smtplib.SMTP('localhost') 
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s.send_message(msg) 

s.quit() 
bs = BeautifulSoup(urlopen('https://isitchristmas.com/'), 'html.parser') 
while(bs.find('a', {'id':'answer'}).attrs['title'] == 'NO'): 

print('It is not Christmas yet.') 


time.sleep(3600) 
bs = BeautifulSoup(urlopen('https://isitchristmas.com/'), 'html.parser') 


sendMail('It\'s Christmas!', 
'According to https://isitchristmas.com, it is Christmas!') 


这 个 程序 每 小 时 检查 一 次 https://isitchristmas.com/ 网 站 (根据 日 期 判断 当天 是 不 是 圣诞 
节 )。 如 果 页 面 上 的 信息 不 是 “NO”“， 就 会 给 你 发 一 封 邮 件 ， 告 诉 你 圣诞 节 到 了 。 























虽然 这 个 程序 看 起 来 并 没有 墙 上 的 挂历 有 用 ， 但 是 稍 作 修 改 就 可 以 做 很 多 有 用 的 事情 。 它 
可 以 发 送 网 站 访问 失败 、 应 用 测试 失败 的 异常 情况 ， 也 可 以 在 Amazon 网 站 上 出 现 了 一 者 
卖 到 断 货 的 畅销 品 时 通知 你 一 一 这 些 都 是 挂历 做 不 到 的 事情 。 























注 4: 中 国 用 户 在 网 站 页 面 上 看 到 的 “NO” 在 源 代码 里 是 “不 是 ”。 一 一 译 者 注 
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第 二 部 分 
高 级 网 页 抓 取 





你 已 经 掌握 了 网 页 抓 取 的 一 些 基础 知识 ， 现 在 让 我 们 进入 更 有 趣 的 第 二 部 分 。 到 目前 为 
止 ， 我 们 创建 的 网 络 腿 虫 还 不 是 特别 给 力 。 如 有 果 Web 服务 器 不 能 立即 提供 样式 规范 的 信 
息 ， 疏 虫 就 不 能 正确 地 抓 取 数 据 。 如 果 扑 虫 只 能 抓 取 那些 显而易见 的 信息 ， 不 经 过 处 理 就 
简单 地 存储 起 来 ， 那 么 迟早 要 被 登录 表单 、 网 站 交互 以 及 JavaScript 困 住 手脚 。 总 之 ， 目 
前 爬虫 还 没有 是 够 的 实力 去 抓 取 各 种 数据 ， 只 能 处 理 那些 愿意 被 抓 取 的 信息 。 























这 部 分 内 容 就 是 要 帮 你 分 析 原 始 数 据 ， 获 取 隐藏 在 数据 背后 的 故事 一 一 网 站 的 真实 故事 其 
实 都 隐藏 在 JavaScript、 登 录 表 单 和 网 站 反 抓 取 措施 的 背后 。 通 过 学 习 这 部 分 内 容 ， 你 将 
掌握 如 何 用 网 络 候 虫 测 试 网 站 ， 自 动 化 处 理 ， 以 及 通过 更 多 的 方式 接 入 网 络 。 最 后 你 将 学 
到 一 些 数据 抓 取 工具 ， 它 们 能 够 帮助 你 深入 互联 网 的 每 个 角落 ， 收 集 和 操作 几乎 所 有 类 型 
的 数据 。 
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读 取 文档 





有 种 观点 认为 ， 互 联网 基本 上 就 是 那些 符合 新 式 Web 2.0 潮流 ， 并 且 经 过 多 媒体 内 容 点 绥 
的 HTML 网 站 构成 的 集合 ， 这 些 内 容 在 网 页 抓 取 时 几乎 都 是 可 以 忽略 的 。 但 是 ， 这 种 观点 
忽略 了 互联 网 最 基本 的 特征 : 作为 不 同类 型 文件 的 传输 媒介 。 





虽然 互联 网 在 20 世纪 60 年 代 末 期 就 已 经 以 不 同 的 形式 出 现 ， 但 是 HTML 直到 1992 年 才 
问世 。 在 此 之 前 ， 互 联网 基本 上 就 是 用 来 收发 邮件 和 传输 文件 ， 那 时 还 没有 “网 页 ”的 概 
念 。 换 言 之 ， 互 联网 并 不 是 一 个 HTML 页 面 的 集合 。 它 是 一 个 由 多 种 类 型 的 文档 构成 的 集 
合 ， 而 HTML 文件 经 常 被 用 作 展 示 文 档 的 一 个 框架 。 如 果 不 能 读 取 各 种 类 型 的 文档 ， 包 括 
纯 文本 、PDF、 图 像 、 视 频 、 邮 件 等 ， 我 们 将 会 遗漏 很 大 一 部 分 可 用 数据 。 


























本 章 重点 介绍 文档 处 理 的 相关 内 容 ， 包 括 把 文档 下 载 到 本 地 文件 夹 里 ， 以 及 读 取 文 档 并 提 
取 数 据 。 还 会 介绍 文档 的 不 同 编码 类 型 ， 让 程序 可 以 读 取 非 英文 的 HTML 页 面 。 


7.1 文档 编码 


文档 编码 告诉 程序 一 一 无 论 是 计算 机 的 操作 系统 还 是 你 自己 的 Python 代码 一 一 如 何 读 取 文 
档 。 文 档 编码 的 方式 通常 可 以 根据 文件 的 扩展 名 进行 判断 ， 虽 然 文 件 扩展 名 并 不 是 由 编码 
决定 的 ， 而 是 由 开发 者 决定 的 。 例 如 ， 如 果 我 把 myImage.jpg 另存 为 myImage.txt， 不 会 出 
现任 何 问题 ， 但 当 我 用 文本 编辑 器 打开 它 的 时 候 就 有 问题 了 。 好 在 这 种 情况 很 少见 ， 要 正 
确 地 读 取 一 个 文档 ， 通 常 只 需 知 道 它 的 扩展 名 。 






































从 根本 上 说 ， 所 有 文档 都 是 由 0 和 1 编码 而 成 的 。 除 此 之 外 ， 编 码 算法 会 定义 “每 个 字符 
多 少 位 ”或 “每 个 像素 的 颜色 值 用 多 少 位 ”( 图 像 文 件 里 ) 之 类 的 事情 。 另 外 ， 你 可 能 
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一 层 数据 压缩 算法 或 体积 缩减 算法 ， 比 如 PNG 图 像 编码 格式 (一 种 无 损 压 缩 的 位 图 图 形 
格式 )。 


虽然 第 一 次 处 理 非 HTML 格式 的 文件 时 会 觉得 很 没 底 ， 但 是 只 要 安装 了 合适 的 库 ，Python 
就 可 以 帮 你 处 理 任 意 类 型 的 文档 。 纯 文本 文件 、 视 频 文件 和 图 像 文件 的 唯一 区 别 ， 就 是 它 
们 的 0 和 1 面向 用 户 的 转换 方式 不 同 。 本 章 会 介绍 几 种 常用 的 文档 格式 : 纯 文 本 、CSV、 
PDF 和 Word 文档 。 







































































这 些 文档 格式 基本 上 都 是 用 来 存储 文字 的 。 如 果 你 需要 关于 图 像 处 理 的 信息 ， 那 么 我 推 
荐 先 通读 这 一 章 ， 掌 握 处 理 和 存储 不 同文 件 类 型 的 方法 ， 再 阅读 第 13 章 关 于 图 像 处 理 的 
内 容 ! 


7.2” 纯 文本 


虽然 把 文件 存储 为 在 线 的 纯 文 本 格式 并 不 常见 ， 但 是 简易 网 站 或 者 旧式 网 站 经 常 有 大 量 的 
纯 文 本 文件 。 例 如 ， 互 联网 工程 任务 组 (Internet Engineering Task Force，IETF) 网 站 就 存 
储 了 其 发 表 过 的 所 有 文档 ， 包 含 HTML、PDF 和 纯 文 本 格式 (例如 https://www.ietf.org/rfc/ 
rfc1149.txt)。 大 多 数 浏 览 器 都 可 以 很 好 地 显示 纯 文 本 文件 ， 抓 取 它 们 也 不 会 遇 到 什么 问题 。 












































对 于 大 多 数 简单 的 纯 文 本 文件 ， 比 如 http:/www.pythonscraping.com/pages/warandpeace/ 
chapterl.txt 这 个 练习 文件 ， 可 以 用 下 面 的 方法 读 取 : 














from urllib.request import urlopen 

textPage = urlopen('http://www.pythonscraping.com/'\ 
"pages/warandpeace/chapter1.txt') 

print(textPage.read()) 


通常 ， 当 用 urlopen 获取 了 网 页 之 后 ， 我 们 会 把 它 转变 成 Beautifulsoup 对 象 ， 以 方 
便 后 面 对 HTML 进行 解析 。 在 这 里 ， 我 们 可 以 直接 读 取 页 面 内 容 。 虽 然 完全 可 以 把 它 
转变 成 Beautifulsoup 对 象 ， 但 这 样 做 其 实 适 得 其 反 这 个 页 面 不 是 HTML， 所 以 
BeautifulSoup 库 就 没 用 了 。 一 旦 纯 文 本 文件 被 读 成 字符 串 ， 你 就 只 能 用 普通 Python 字符 串 
的 方法 分 析 它 了 。 当 然 ， 这 么 做 有 个 缺点 ， 就 是 你 不 能 对 字符 串 使 用 HTML 标签 ， 去 定位 
那些 你 真正 需要 的 文字 ， 避 开 那 些 你 不 需要 的 文字 。 如 果 现 在 你 想 从 纯 文本 文件 中 抽取 某 
些 信息 ， 还 是 有 些 难 度 的 。 


文本 编码 和 全 球 互联 网 
前 面 说 过 ， 如 果 想 正确 地 读 取 一 个 文件 ， 只 需 知道 它 的 扩展 名 就 可 以 了 。 不 过 非常 奇怪 的 
是 ， 这 条 规则 不 能 应 用 到 最 基本 的 文档 格式 ，.txt 文件 。 


大 多 数 时 候 ， 用 前 面 介绍 的 方法 读 取 纯 文本 文件 都 没有 问题 。 但 是 ， 互 联网 上 的 文本 文件 










































































Ei 























94 | 第 7 章 





会 比较 复杂 。 下 面 介 绍 一 些 英文 和 非 英 文 编 码 的 基础 知识 ， 包 括 ASCII、Unicode 和 ISO 
码 ， 以 及 对 应 的 处 理 方法 。 


1. 文本 编码 类 型 简介 

ASCII 是 在 20 世纪 60 年 代 首 次 发 明 的 一 套 编 码 系统 ， 当 时 比特 还 非常 昂贵 ， 并 且 也 没 必 
要 编码 除 拉 丁字 母 和 一 些 标点 符号 外 的 任何 东西 。 因 此 ， 对 于 编码 128 个 大 写字 母 、 小 写 
字母 和 标点 符号 来 说 ，7 位 就 够 了 。 还 有 33 个 非 打 印字 符 ， 其 中 有 些 被 使 有 用， 有些 被 替 
换 ， 有 些 随 着 这 些 年 技术 的 发 展 被 废弃 了 。 这 样 看 来 空间 还 是 很 多 的 ， 不 是 吗 ? 


每 一 位 程序 员 都 知道 ，7 是 一 个 奇怪 的 数字 。 它 并 不 是 2 的 突 ， 但 是 也 很 接近 。20 世纪 60 
年 代 ， 究 竟 是 应 该 增加 一 位 以 获得 一 个 漂亮 的 二 进 制 数 (用 8 位)， 还 是 让 文件 占用 更 少 
的 存储 空间 (用 7 位 )， 计 算 机 科学 家 们 对 此 和 争论 不 休 。 最 终 ，7 位 编码 胜利 了 。 但 是 ,在 
新 式 的 计算 方式 中 ,每 个 7 位 码 的 前 面 都 补充 (pad) 了 一 个 “0”', 留 给 我 们 两 个 最 坏 的 结 
果 是 ,文件 大 了 14% (编码 由 7 位 变 成 8 位 ， 体 积 增 加 了 14%)， 并 且 由 于 只 有 128 个 字 
符 , 缺乏 灵活 性 。 











区 























20 世纪 90 年 代 初 ， 人 们 认识 到 世界 上 除了 英语 还 存在 其 他 很 多 语言 ， 如 果 计 算 机 也 可 
以 显示 这 些 语言 就 太 好 了 。 一 个 叫 Unicode 联盟 (The Unicode Consortium) 的 非 营利 组 
组 尝试 对 地 球 上 所 有 用 于 书写 的 字符 进行 统一 编码 。 其 目标 包括 拉丁 字母 、 斯 拉夫 字母 
(KHproumua)、 中 国 象形 文字 (象形 )、 数 学 和 逻辑 符号 (六 、>)， 甚 至 表情 符号 和 其 他 符 
号 ， 如 生化 危机 标记 ( 匡 ) 和 和 平 符号 (四) 等 。 





编码 的 结果 就 是 你 可 能 已 熟知 的 UTF-8 (Universal Character Set 一 Transformation Format 8 
bit， 统 一 字符 集 一 转换 格式 8 位 )。"8 位 ” 指 的 不 是 每 个 字符 的 大 小 ， 而 是 显示 一 个 字符 
所 需要 的 最 小 位 数 。 


UTF-8 字符 的 实际 大 小 是 非常 灵活 的 ， 范 围 从 1 字 节 到 4 字 节 ， 有 具体 取决 于 它们 在 可 能 的 
字符 列表 中 的 位 置 〈 常 用 字符 用 更 少 的 字 节 编码 ， 相 对 罕见 的 字符 则 需要 更 多 字 节 )。 


那么 UTF-8 的 灵活 性 是 如 何 实现 的 呢 ? ASCII 码 的 7 位 编码 以 及 毫 无 用 处 的 开头 补 零 乍 看 
起 来 像 是 一 个 设计 错误 ， 但 实际 上 却 是 UTF-8 的 一 大 优势 。 因 为 ASCII 非常 受 欢迎 ， 所 以 
Unicode 决定 利用 开头 补 零 ， 让 所 有 以 “0” 开 头 的 字 节 表示 这 个 字符 只 用 1 个 字 节 ， 从 而 
使 得 ASCI 和 UTF-8 的 编码 机 制 完全 一 样 。 因 此 ， 下 面 的 字符 在 ASCI 和 UTF-8 两 种 编 
码 方式 中 都 是 有 效 的 : 























01000001 - A 
01000010 - B 
01000011 - C 





注 1: padding (填充 ) 位 在 稍 后 介绍 ISO 编码 标准 时 还 会 提 到 。 
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而 下 面 的 字符 只 在 UTF-8 编码 里 有 效 ， 如 果 文 档 用 ASCII 编码 ， 它 们 就 会 被 看 成 “无 法 打 
印 ”: 





11000011 10000000 - A 
11000011 10011111 - R 
11000011 10100111 - ¢ 


除了 UTF-8， 还 有 其 他 UTF 标准 ， 比 如 UTF-16、UTF-24 和 UTF-32， 不 过 很 少 用 这 些 编 
码 标 准 对 文件 进行 编码 ， 仅 限于 特殊 情况 ， 而 这 超出 了 本 书 范围 。 





尽管 ASCII 最 初 的 “设计 错误 ”给 UTF-8 带 来 了 很 大 的 便利 ， 但 是 其 缺陷 也 并 未 完全 消 
失 。 每 个 字符 前 8 位 的 信息 仍然 只 能 编码 128 个 字符 ， 而 不 是 完整 的 256 个 字符 。 在 需要 
多 个 字 节 的 UTF-8 字符 中 ， 额 外 补 齐 的 位 并 不 是 用 于 字符 的 编码 ， 而 是 用 于 校 验 位 以 防止 
产生 歧义 。 四 字 节 字符 的 32 (8x4) 位 中 ， 只 有 21 位 用 于 为 总 共 2 097 152 个 可 能 的 字符 
其 中 1 114 112 个 字符 已 分 配 ) 进行 编码 。 


























We 








当然 ， 所 有 通用 语言 编码 标准 的 问题 就 是 任何 一 种 非 英文 语言 文档 的 体积 都 比 ASCII 编码 
的 体积 大 。 虽 然 你 的 语言 可 能 只 由 大 约 100 个 字符 构成 ,但 是 你 还 是 得 用 16 位 表示 每 个 
字符 ， 而 不 只 是 8 位 ， 就 像 英文 的 ASCII 编码 。 这 会 让 采用 UTF-8 编码 的 非 英文 的 纯 文本 
文档 的 体积 差不多 达到 英文 文档 的 两 倍 ， 至 少 对 那些 不 用 拉丁 字符 集 的 语言 来 说 是 如 此 。 





ISO 标准 解决 这 个 问题 的 办 法 是 为 每 种 语言 创建 一 种 编码 。 和 Unicode 一 样 ， 它 使 用 了 与 
ASCII 相同 的 编码 ， 但 是 在 每 个 字符 的 开头 用 0 作 “ 填 充 位 *”， 这 样 就 可 以 为 所 有 语言 创建 
128 个 特殊 字符 。 这 种 做 法 对 那些 依赖 拉丁 文字 母 的 欧洲 语言 (编码 还 是 按照 0-127 一 一 
对 应 ) 非常 合适 ， 只 不 过 需要 增加 一 些 特殊 字符 。 这 使 得 ISO-8859-1 (为 拉丁 文字 母 设计 
的 ) 标准 里 有 了 分 数 符 号 〈 如 允 ) 和 版 权 标记 (©)。 














还 有 一 些 ISO 字符 集 ， 像 ISO-8859-9 (土耳其 语 )、ISO-8859-2 (德语 等 语言 )、ISO-8859-15 
(法 语 等 语言 ) 也 是 用 类 似 的 规律 做 出 来 的 。 

虽然 这 些 年 ISO 编码 标准 的 使 用 率 一 直 在 下 降 ， 但 是 目前 仍 有 约 9% 的 网 站 使 用 ISO 编 
码 *?， 所 以 在 抓 取 网 站 之 前 有 必要 了 解 并 检查 是 否 使 用 了 这 种 编码 方法 。 

2. 编码 进行 时 

在 上 一 节 里 ， 我 们 用 采取 默认 设置 的 urlopen 读 取 了 网 上 的 纯 文 本 文档 。 这 么 做 对 大 多 数 
英文 文本 来 说 没有 任何 问题 。 但 是 ， 如 果 你 遇 到 的 是 俄语 、 阿 拉 伯 语 ， 或 者 是 像 “résumé” 
这 样 的 单词 ， 就 可 能 会 出 问题 。 


看 看 下 面 的 代码 : 


























注 2: 数据 源 自 http://w3techs.com/technologies/history overview/character encoding， 通 过 网 络 爬 虫 收集 。 
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from urllib.request import urlopen 

textPage = urlopen('http://www.pythonscraping.com/'\ 
'pages/warandpeace/chapter1-ru.txt') 

print(textPage.read()) 


这 段 代 码 会 把 《战争 与 和 平 》 原 著 ( 托 尔 斯 泰 用 俄语 和 法 语 写 的) 的 第 1 章 打印 到 屏幕 
上 上。 打印 结果 一 开头 是 这 样 : 


b"\xdO\xa7\xd0O\x90\xd0O\xali\xd0O\xa2\xd0O\xac \xd0O\x9f\xd0O\x95\xd0O\xa0\xd0O\x92\xd0\ 
x90\xd0O\xaf\n\nI\n\n\xe2\x80\x94 Eh bien, mon prince. 








HI 
By 


站 ， 在 大 多 数 浏览 器 里 访问 该 页 面 会 呈现 乱码 (参见 图 7-1)。 








€ SC Dwww.pythonscraping.com/pages/warandpeace/chapterl-... Yr 二 Gy 三 





DSDDID¢D™ DYpeD 于 DB 
工 


ae"” Eh bien, mon prince. GAanes et Lucques ne sont plus que des apanages, des 

DDADNDLNN NEN, de la famille Buonaparte. Non, je vous prAi®viens que si vous ne me dites 
pas que nous avons la guerre, si vous vous permettez encore de pallier toutes les 
infamies, toutes les atrociti®s de cet Antichrist (ma parole, j'y crois) ae"” je ne vous 
connais plus, vous n'Aates Plus mon ami, vous n'Aates plus DXDA3D1 D2DLNEDYN .D1 NED°D+, 
comme vous dites. DNf, D:D NEDD2NN D2NfDiIN Duy, D:D NED°D2NN D2NFDIN Duy. Je vois que je 
vous fais peur, NBD°D“’D,N DuNNG Dp, NEDNNDODD*N'D2D°DIN Dy. 

Dp¢p°Do D3DADDANED ,DD D2 DNiDrDy 1805 D3DAD“D° DD*DDLNN DEDN PDSDYED° DYDD2D"DAD2DYD? 
DDpuNepyNe, N,NEDLD1ID»D .DED D, DENED ,D+D"D, DDNDYDYDN D,DEDDLNEDN NED,NiNe DepNED.D, D 
HpuDAD “D3Nepa#D2DyN., D2NN NeDyN+DN D2DDIDYDADIDE DD, NiD, DyD3D2DYDADD DoDYyND-N D'D 

oND DD.N, DEDLNED2DADDE DENED .DyuN..DDN DuDIDE Dip Dypy DDuN+DLNE. DDYDYD? DYD 














图 7-1: 法 语 和 斯 拉夫 语文 本 用 ISO-8859-1 (许多 浏览 器 默认 的 文本 编码 格式 ) 编码 的 效果 


就 算 让 以 俄语 为 母语 的 人 来 看 ， 这 些 乱 码 也 难以 辨认 。 问 题 在 于 ，Python 试图 把 文本 读 成 
ASCII 编码 格式 ， 而 浏览 器 试图 把 文本 读 成 ISO-8859-1 编码 格式 。 其 实 都 不 对 ， 应 该 是 
UTF-8 编码 格式 。 





我 们 可 以 把 字符 串 显 示 转 换 成 UTF-8 格式 ， 这 样 就 可 以 正确 显示 斯 拉夫 文字 了 : 





from urllib.request import urlopen 


textPage = urlopen('http://www.pythonscraping.com/'\ 
"pages/warandpeace/chapter1-ru.txt') 
print(str(textPage.read(), 'utf-8')) 


用 BeautifulSoup 和 Python 3.x 对 文档 进行 UTF-8 编码 ， 如 下 所 示 : 


html = urlopen('http://en.wikipedia.org/wiki/Python_(programming_language)') 
bs = BeautifulSoup(html, 'html.parser') 

content = bs.find('div', {'id':'mw-content-text'}).get_text() 

content = bytes(content, 'UTF-8') 

content = content.decode('UTF-8') 


Python 3.x 默认 将 所 有 字符 编码 成 UTF-8。 你 可 能 打算 以 后 用 网 络 扑 虫 的 时 候 全 部 采用 
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UTF-8 编码 读 取 内 容 ， 毕 竟 UTF-8 也 可 以 完美 地 处 理 ASCII 字符 和 非 英 语 语言 。 但 是 ， 要 
记 住 还 有 9% 的 网 站 使 用 ISO 编码 格式 ， 所 以 你 不 能 完全 避免 该 问题 。 

不 幸 的 是 ， 在 处 理 纯 文本 文档 时 ， 无 法 具体 确定 文档 的 编码 。 有 一 些 库 可 以 检查 文档 的 
编码 ， 或 是 对 文档 编码 进行 估计 (用 一 些 逻 辑 来 判断 “NED*"NNP°*D°D-N” 很 可 能 不 是 单 
词 )， 不 过 效果 并 不 是 很 好 。 

幸运 的 是 ， 在 处 理 HTML 页 面 的 时 候 ， 编 码 格式 通常 会 包含 在 网 站 <head> 部 分 的 标签 中 。 
大 多 数 网 站 ， 尤 其 是 英文 网 站 ， 都 会 带 这 样 的 标签 : 












































<meta charset="utf-8" /> 


而 ECMA (European Computer Manufacturers Association， 欧 洲 计算 机 制造 商 协会 ) 网 站 的 
标签 是 这 样 的 “: 


<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1"> 


如 果 你 要 做 很 多 网 页 抓 取 工 作 ， 尤 其 是 面 对 国际 网 站 时 ， 建 议 你 先 看 看 meta 标签 的 内 容 ， 
用 网 站 推荐 的 编码 方式 读 取 页 面 内 容 。 














7.3 CSV 


进行 网 页 抓 取 的 时 候 ， 你 可 能 会 遇 到 CSV 文件 ， 也 可 能 有 同事 希望 将 数据 保存 为 CSV 
格式 。Python 有 一 个 超 赞 的 标准 库 (https://docs.python.org/3.4/library/csv.html) 可 以 读 写 
CSV 文件 。 虽 然 这 个 库 可 以 处 理 各 种 CSV 文件 ， 但 是 本 节 重 点 介绍 标准 CSV 格式 。 如 果 
你 在 处 理 CSV 时 有 特殊 需求 ， 请 查看 文档 ! 


读 取 CSV 文 件 
Python 的 csv 库 主 要 是 面向 本 地 文件 ， 就 是 说 你 的 CSV 文件 得 存储 在 你 的 电脑 上 。 而 进 
行 网 页 抓 取 的 时 候 ， 很 多 文件 都 是 在 线 的 。 不 过 有 一 些 方法 可 以 解决 这 个 问题 : 












































。 手动 把 CSV 文件 下 载 到 本 机 ， 然 后 用 Python 定位 文件 位 置 ， 

。 写 Python 程序 下 载 文件 ， 读 取 文件 ， 之 后 《可 以 ) 把 源 文 件 删除 ; 

。 从 网 上 直接 把 文件 读 成 一 个 字符 串 ， 然 后 转换 成 一 个 StringI0 对 象 ， 使 它 具 有 文件 的 
属性 。 


虽然 前 两 种 方法 也 可 行 ， 但 是 既然 你 可 以 轻易 地 把 CSV 文件 保存 在 内 存 里 ， 就 不 要 再 下 
载 到 本 地 占用 硬盘 空间 了 。 直 接 把 文件 读 成 字符 串 ， 然 后 封装 成 StringI0 对 象 ， 让 Python 
把 它 当 作文 件 来 处 理 ， 就 不 需要 先 保存 文件 了 。 下 面 的 程序 就 是 从 网 上 获取 一 个 CSV 文 


















































注 3: ECMA 是 ISO 编码 标准 的 主要 贡献 者 之 一 ， 所 以 它 的 网 站 用 ISO 编码 一 点 儿 也 不 奇怪 。 
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件 (这 里 是 http://pythonscraping.com/files/MontyPythonAlbums.csv 里 的 Monty Python 乐团 
的 专辑 列表 ) ， 然 后 把 每 一 行 都 打印 到 命令 行 里 ; 





from urllib.request import urlopen 
from io import StringI0 
import csv 


data = urlopen('http://pythonscraping.com/files/MontyPythonAlbums.csv') 
.read().decode('ascii', 'ignore') 

dataFile = StringI0(data) 

csvReader = csv.reader(dataFile) 


for row in csvReader: 
print(row) 


输出 如 下 所 示 : 


['Name', 'Year'] 

["Monty Python's Flying Circus", '1970'] 
['Another Monty Python Record', '1971'] 
["Monty Python's Previous Record", '1972'] 


从 代码 中 你 会 发 现 csv.reader 返回 的 csvReader 对 象 是 可 选 代 的 ， 而 且 由 Python 的 列表 对 
象 构成 。 因 此 ，csvReader 对 象 的 每 一 行 可 以 用 下 面 的 方式 获取 : 




















for row in csvReader: 
print('The album "'+row[0]+ 


was released in '+str(row[1])) 
输出 结果 是 : 


The album "Name" was released in Year 

The album "Monty Python's Flying Circus" was released in 1970 
The album "Another Monty Python Record" was released in 1971 
The album "Monty Python's Previous Record" was released in 1972 


注意 看 第 一 行 的 内 容 ，The album "Name"” was released in Year。 虽 然 写 示例 代码 的 时 候 ， 
这 行内 容 是 否 显示 都 无 所 谓 ， 但 是 工作 中 你 肯定 不 希望 将 这 行 信息 保留 在 数据 里 。 有 些 程 
序 员 可 能 会 简单 地 跳 过 csvReader 对 象 的 第 一 行 ， 或 者 写 一 个 简单 的 条 件 把 第 一 行 处 理 掉 。 
不 过 ， 还 有 一 个 国 数 可 以 很 好 地 处 理 这 个 问题 ， 那 就 是 csv.DictReader: 


























from urllib.request import urlopen 
from io import StringI0 
import csv 


data = urlopen('http://pythonscraping.com/files/MontyPythonAlbums.csv') 
.read().decode('ascii', 'ignore') 

dataFile = StringI0(data) 

dictReader = csv.DictReader(dataFile) 
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print(dictReader.fieldnames) 


for row in dictReader: 
print(row) 


csv.DictReader 会 把 CSV 文件 的 每 一 行 转换 成 Python 的 字典 对 象 返回 ， 而 不 是 列表 对 象 ， 
并 把 字段 名 称 保存 在 变量 dictReader .fieldnames 里 ， 作 为 字典 对 象 的 键 : 





['Name', 'Year'] 

{'Name': 'Monty Python's Flying Circus', 'Year': '1970'} 
{'Name': 'Another Monty Python Record', 'Year': '1971'} 
{'Name': 'Monty Python's Previous Record', 'Year': '1972'} 

















当然 ， 与 csvReader 相 比 ， 创 建 、 处 理 和 打印 这 些 DictReader 对 象 要 多 花 点 时 间 ， 但 是 芳 
虑 到 它 的 便利 性 和 实用 性 ， 还 是 值得 的 。 还 要 注意 的 是 ， 在 进行 网 页 抓 取 的 时 候 ， 无 论 写 
什么 样 的 仆 虫 程序 ， 从 外 部 服务 器 请 求 和 检索 网 站 数据 的 时 间 消 耗 几 乎 都 是 不 可 避免 的 限 
制 因素 ， 因 此 担心 两 种 技术 中 哪 种 可 能 会 增加 几 微 秒 运行 时 间 ， 其 实 没 有 什么 实际 意义 。 


























7.4 PDF 


作为 一 名 Linux 用 户 ， 我 能 理解 电脑 上 没有 微软 软件 却 收 到 了 一 个 .docx 文件 的 痛苦 ， 还 
有 费 半 天 劲 儿 找 一 种 能 够 读 取 苹果 系统 媒体 文件 的 解码 器 。 从 某 种 意义 上 说 ，Adobe 在 
1993 年 发 明 PDF (Portable Document Format， 便 携 式 文档 格式 ) 是 一 种 技术 革命 。PDF 让 
用 户 可 以 在 不 同 的 系统 上 用 同样 的 方式 查看 图 片 和 文本 文档 。 





























虽然 把 PDF 存储 在 Web 上 已 经 有 点 儿 过 时 了 (你 已 经 可 以 把 内 容 写 成 HTML 了 ， 为 什么 
还 要 用 这 种 静态 、 加 载 速度 超 慢 的 格式 存储 内 容 呢 ? )， 但 是 PDF 仍然 无 处 不 在 ， 尤 其 是 
在 处 理 商 务 报表 和 表单 的 时 候 。 


2009 年 ， 一 个 叫 Nick Innes 的 英国 人 上 了 新 闻 ， 他 根据 英 联 邦 的 《信息 自由 法 案 》， 要 求 
英国 白金 汉 郡 议会 公开 学 生 的 考试 成 绩 。 在 儿 次 请 求 遭 到 拒绝 之 后 ， 他 最 终 获 得 了 所 寻找 
的 信息 一 一 184 份 PDF 文件 。 
































虽然 Innes 努力 坚持 ， 并 且 最 后 得 到 了 一 个 格式 更 好 的 数据 库 ， 但 是 如 果 他 事先 了 解 网 络 
爬虫 ， 再 用 Python 众多 PDF 解析 模块 中 的 任意 一 个 来 直接 处 理 这 些 PDF 文件 ， 那 么 他 一 
定 可 以 在 法 庭 上 节省 很 多 时 间 。 





不 过 目前 很 多 PDF 解析 库 都 是 用 Python 2.x 版 本 建立 的 ， 还 没有 迁移 到 Python 3.x 版 本 。 
但 是 ， 因 为 PDF 比较 简单 ， 而 且 是 开源 的 文档 格式 ， 所 以 很 多 给 力 的 Python 库 都 可 以 读 
取 PDF 文件 ， 而 且 支 持 Python 3.x 版 本 。 

















PDFMiner3K 就 是 一 个 非常 好 用 的 库 “。 它 非常 灵活 ， 可 以 通过 命令 行使 用 ， 也 可 以 整合 到 





代码 中 。 它 还 可 以 处 理 不 同 的 语言 编码 一 一 对 网 页 抓 取 而 言 非常 方便 。 








你 可 以 使 用 pip 进行 安装 ， 也 可 以 下 载 这 个 Python 模块 (https://pypi.python.org/pypi/ 





pdftminer3k) ， 然 后 解压 并 用 下 面 的 命令 安装 ; 








$ python setup.py install 


文档 位 于 源 文件 解压 文件 夹 的 pdfminer3k-1.3.0/docs/index.html 是 
绍 命令 行 接 口 ， 而 不 是 Python 代码 整合 。 


下 面 的 例子 可 以 把 任意 PDF 读 成 字符 串 ， 然 后 用 StringI0 转换 成 文件 对 象 





是 




















from UrLLib .request import urlopen 

from pdfminer.pdfinterp import PDFResourceManager, process_pdf 
from pdfminer.converter import TextConverter 

from pdfminer.Layout import LAParams 

from io import StringI0 

from io import open 


def readPDF(pdfFile): 
rsrcmgr = PDFResourceManager() 
retstr = StringI0() 
Laparams = LAParams() 
device = TextConverter(rsrcmgr, retstr, laparams=laparams) 


process_pdf(rsrcmgr, device, pdfFile) 
device.close() 


content = retstr.getvalue() 
retstr .close() 
return content 


pdfFile = urlopen('http://pythonscraping.com/' 
'pages/warandpeace/chapter1.pdf') 

outputString = readPDF(pdfFiLe) 

print(outputString) 

pdfFile.close() 





上 面 程序 的 文本 输出 如 下 : 











CHAPTER I 


"Well, Prince, so Genoa and Lucca are now just family estates of 

the Buonapartes. But I warn you, if you don't tell me that this 

means war, if you still try to defend the infamies and horrors 
perpetrated by that Antichrist- I really believe he is Antichrist- I will 





， 这 个 文档 更 多 是 在 介 


readPDF 函数 的 好 处 是 ， 如 果 你 的 PDF 文件 在 电脑 里 ， 你 就 可 以 直接 把 urlopen 返回 的 对 











注 4: 它 是 PDFMiner 的 Python 3.x 移植 版 。 一 一 译 者 注 


T 
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象 pdfFile 替换 成 普通 的 open() 文件 对 象 : 
pdfFile = open('../pages/warandpeace/chapter1.pdf', 'rb') 
输出 结果 可 能 不 是 很 完美 ， 尤 其 是 当 PDF 里 有 图 片 、 各 种 各 样 的 文本 格式 ， 或 者 带 有 表格 


和 数据 图 的 时 候 。 但 是 ， 对 大 多 数 只 包含 纯 文 本 内 容 的 PDF 而 言 ， 其 输出 结果 与 纯 文 本 格 
式 基 本 没什么 区 别 。 


























7.5 微软 Word 和 .docx 


冒 着 冒犯 微软 朋友 的 风险 说 句 话 : 我 不 喜欢 微软 的 Word 软件 。 并 不 是 因为 它 是 一 款 烂 
软件 ， 而 且 因为 它 的 用 户 误 用 了 它 。Word 的 “特异 功能 ”就 是 把 那些 应 该 写成 简单 的 
TXT 或 PDF 格式 的 文件 ， 变 成 了 既 大 又 慢 且 难以 打开 的 “怪物 ”， 而 且 它 们 经 常 在 系统 
声 换 和 版 本 切换 中 出 现 格 式 不 兼容 ， 并 且 因 为 某 些 原因 在 文件 内 容 已 经 定稿 后 仍 处 于 可 
编辑 状态 。 
































Word 文件 被 设计 用 于 内 容 创 建 ， 而 不 是 内 容 共 享 。 不 过 它们 在 一 些 网 站 上 很 流行 ， 包 含 
重要 的 文档 、 信 息 ， 甚 至 是 图 表 和 多 媒体 ， 总 之 就 是 能 够 并 且 应 该 用 HTML 创建 的 一 切 。 


大 约 在 2008 年 以 前 ， 微 软 Office 产品 采用 .doc 文件 格式 。 这 种 二 进 制 文件 格式 很 难 读 取 ， 
而 且 其 他 文字 处 理 软件 对 它 的 支持 也 不 好 。 为 了 跟 上 时 代 ， 让 自己 的 软件 能 够 符合 主流 软 
件 的 标准 ， 微 软 决定 使 用 基于 Office Open XML 的 标准 ， 此 后 新 版 Word 文件 才 与 其 他 文 
字 处 理 软件 兼容 ， 这 个 格式 就 是 .docx。 



































不 过 ，Python 对 这 种 Google Docs、Open Office 和 Microsoft Office 都 在 使 用 的 .docx 格式 
9 支持 还 不 够 好 。 虽 然 有 一 个 python-docx 库 ， 但 是 只 支持 创建 新 文档 和 读 取 一 些 基 本 的 
文件 数据 ， 如 文件 大 小 和 文件 标题 ， 不 支持 正文 读 取 。 如 果 想 读 取 Microsoft Office 文件 的 
正文 内 容 ， 需 要 自己 动手 找 方法 。 


第 一 步 是 从 文件 中 读 取 XML 






































from zipfile import Ziprile 
from urllib.request import urlopen 
from io import BytesI0 


wordFile = urlopen('http://pythonscraping.com/pages/AWordDocument.docx').read() 
wordFile = BytesI0(wordFile) 

document = ZipFile(wordFile) 

xml_content = document.read('word/document.xml') 

print(xml_content.decode( 'utf-8')) 


这 段 代 码 把 一 个 远程 Word 文档 读 成 一 个 二 进 制 文件 对 象 (BytesI0 与 本 章 前 面 用 的 


StringI0 类 似 )， 再 用 Python 的 标准 库 zipfile 解压 〈 为 了 节省 空间 ， 所 有 的 .docx 文件 
都 进行 过 压缩 )， 然 后 读 取 这 个 解压 文件 ， 就 变 成 XML 了 。 
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这 个 Word 文档 在 http://pythonscraping.com/pages/AWordDocument.docx， 内 容 如 








图 7-2 所 示 。 
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A Word Document on a Website 


This is a Word document, full of content that you want very much. Unfortunately, it's difficult to access 
because rm putting it on my website as a .docx file, rather than just publishing it as HTML 


明日 = AWordDocument - Word ?3 国 -一口 Xx 
FILE HOME INSERT DESIGN PAGELAYOUT REFERENCES MAILINGS REVIBI， 











7-2: 这 个 Word 文档 的 正文 内 容 你 可 能 很 想 要 ， 但 是 很 难 获取 ， 因 为 我 把 它 放 在 了 网 站 的 .docx 


二 


文件 里 而 不 是 HTML 里 


























看 这 个 Python 程序 读 取 这 个 简单 的 Word 文档 后 ， 输 出 的 结果 如 下 : 


<!--?xml version="1.0" encoding="UTF-8" standalone="yes"?--> 

<w:document mc:ignorable="w14 w15 wp14" xmlns:m="http://schemas.openx 
mlformats.org/officeDocument/2006/math" xmLns:mc="http://schemas.open 
xmlformats.org/markup-compatibility/2006" xmlns:0="urn:schemas-micros 
oft-com:office:office" xmlns:r="http://schemas.openxmlformats.org/off 
iceDocument/2006/relationships" xmlns:v="urn:schemas-microsoft-com:vm 
1l" xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/m 
ain" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:w14="htt 
p://schemas.microsoft.com/office/word/2010/wordml" xmlns:w15="http:// 
schemas.microsoft.com/office/word/2012/wordml" xmlns:wne="http://sche 
mas.microsoft.com/office/word/2006/wordml" xmlns:wp="http://schemas.o 
penxmlformats.org/drawingml/2006/wordprocessingDrawing" xmlns:wp14="h 
ttp://schemas.microsoft.com/office/word/2010/wordprocessingDrawing" x 
mlns:wpc="http://schemas.microsoft.com/office/word/2010/wordprocessin 
gCanvas" xmlns:wpg="http://schemas.microsoft.com/office/word/2010/wor 
dprocessingGroup" xmlns:wpi="http://schemas.microsoft.com/office/word 
/2010/wordprocessingInk" xmlns:wps="http://schemas.microsoft.com/offi 
ce/word/2010/wordprocessingShape"><w:body><w:p w:rsidp="00764658" wi:r 
sidr="00764658" w:rsidrdefault="00764658"><w:ppr><w:pstyle w:val="Tit 
le"></w:pstyle></w:ppr><w:r><w:t>A Word Document on a Website</w:t></ 
w:r><w:bookmarkstart w:id="0" w:name="_GoBack"></w:bookmarkstart><w:b 
ookmarkend w:id="0"></w:bookmarkend></w:p><w:p w:rsidp="00764658" w:r 
sidr="00764658" w:rsidrdefault="00764658"></w:p><w:p w:rsidp="0076465 
8" w:rsidr="00764658" w:rsidrdefault="00764658" w:rsidrpr="00764658"> 
<w: r> <w:t>This is a Word document, full of content that you want ve 
ry much. Unfortunately, it’s difficult to access because I’m putting 
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it on my website as a .</w:t></w:r><w:prooferr w:type="spellStart"></ 
w:prooferr><w:r><w:t>docx</w:t></w:r><w:prooferr w:type="spellEnd"></ 
w:prooferr> <w:r> <w:t xml:space="preserve"> file, rather than just p 
ublishing it as HTML</w:t> </w:r> </w:p> <w:sectpr w:rsidr="00764658" 
w:rsidrpr="00764658"> <w:pgszw:h="15840" w:w="12240"></w:pgsz><w:pgm 
ar w:bottom="1440" w:footer="720" w:gutter="0" w:header="720" w:left= 
"1440" w:right="1440" w:top="1440"></w:pgmar> <w:cols w:space="720">< 
/w:cols&g; <w:docgrid w:linepitch="360"></w:docgrid> </w:sectpr> </w: 
body> </w:document> 


确实 包含 了 大 量 的 元 数据 ， 但 是 你 想 要 的 文本 内 容 被 隐藏 在 XML 里 面 。 好 在 文档 的 所 有 











正文 内 容 都 包含 在 w:t 标签 里 面 ， 标 题 内 容 也 是 如 此 ， 这 样 就 容易 处 理 了 。 





from zipfile import Ziprile 

from urllib.request import urlopen 
from io import BytesI0 

from bs4 import BeautifulSoup 


wordFile = urlopen('http://pythonscraping.com/pages/AWordDocument.docx').read() 
wordFile = BytesIO(wordFiLe) 

document = ZipFile(wordFile) 

xml_content = document.read('word/document.xml') 


word0bj = BeautifulSoup(xml_content.decode('utf-8'), 'xml') 
textStrings = wordObj.find_all('w:t') 


for textElem in textStrings: 
print(textElem. text) 





注意 ， 这 里 我 们 并 没有 使 用 此 前 使 用 的 BeautifulSoup 的 htmL.parser 解析 器 ， 而 是 使 用 了 
xml 解析 器 。 这 是 因为 冒号 在 HTML 标签 (如 w:t) 中 并 不 是 标准 的 ， 而 html .parser 不 能 
识别 它 。 

















这 段 代 码 的 结果 并 不 完美 ,但 是 已 经 差不多 了 。 一行 打印 一 个 w:t 标签 ， 就 可 以 看 到 Word 
是 如 何 对 文字 进行 断 行 处 理 的 : 


A Word Document on a Website 
This is a Word document, full of content that you want very much. Unfortunately, 
it’s difficult to access because I’m putting it on my website as a . 
docx 
file, rather than just publishing it as HTML 


你 会 看 到 这 里 “docx” 是 单独 一 行 ， 这 是 因为 在 原始 的 XML 里 ， 它 是 由 <w:proofErr w: 
type="speLLStart"/> 标签 包围 的 。 这 是 Word 用 红色 波浪 线 高 亮 显示 “docx” 的 方式 ， 提 
示 这 个 词 可 能 有 拼写 错误 。 

















a 











文档 的 标题 是 由 样式 定义 标签 <w:pStyle w:val="Title"/> 处 理 的 。 虽 然 不 能 非常 简单 地 定 
位 标题 (或 其 他 带 样式 的 文本 )， 但 是 用 BeautifulSoup 的 导航 功能 还 是 可 以 帮助 我 们 解决 
问题 的 : 











textStrings = word0bj.find_aLLC'w:t') 


for textElem in textStrings: 
style = textElem.parent.parent.find('w:pStyle') 
if style is not None and styLe['w:vaL'] == 'Title': 
print('Title is: {}'.format(textElem.text)) 
else: 
print(textElem. text) 


这 段 代 码 很 容易 扩展 ， 以 打印 不 同文 本 样式 的 标签 ， 或 者 把 它们 标记 成 其 他 形式 。 
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到 目前 为 止 ， 我 们 还 没有 处 理 过 那些 样式 不 规范 的 数据 ， 要 么 是 使 用 样式 规范 的 数据 源 ， 
要 么 就 是 彻底 放弃 样式 不 符合 预期 的 数据 。 但 是 在 网 页 抓 取 中 ， 你 通常 不 能 对 数据 源 或 数 
据 样 式 大 挑剔。 

由 于 存在 错误 的 标点 符号 、 字 母 大 小 写 不 一 致 、 断 行 和 拼写 错误 等 问题 ,“ 脏 数据 ”是 
Web 上 的 一 个 大 问题 。 本 章 将 介绍 一 些 工具 和 技术 ， 帮 助 你 通过 改变 代码 的 编写 方式 ， 从 
源头 预防 问题 ， 并 且 对 已 经 进入 数据 库 的 数据 进行 清洗 。 


8.1 编写 代码 清洗 数据 
和 和 写 代 码 处 理 异常 一 样 ， 你 也 应 该 学 习 编写 预防 型 代码 来 处 理 意外 情况 。 


语言 学 里 有 一 个 模型 叫 n-gram， 表 示 文 字 或 语言 中 个 连续 的 单词 组 成 的 序列 。 在 进行 自 
然 语言 分 析 时 ， 使 用 n-gram 或 者 寻找 常用 词组 ， 可 以 很 容易 地 把 一 句 话 分 解 成 若干 个 文字 
片段 。 

本 市 将 重点 介绍 如 何 获取 格式 合理 的 n-gram， 而 不 用 它们 做 任何 分 析 。 在 第 9 章 ， 我 们 用 
用 2-gram 和 3-gram 来 做 文本 摘要 提取 和 分 析 。 


下 







































































中 

















看 的 代码 将 返回 在 维基 百科 词 条 “Python programming language” 中 找到 的 2-gram 列表 : 








from urllib.request import urlopen 
from bs4 import BeautifulSoup 
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def getNgrams(content, n): 
content = content.split(' ') 
output = [] 
for i in range(len(content)-n+1): 
output.append(content[i:i+n]) 
return output 


html = urlopen('http://en.wikipedia.org/wiki/Python_(programming_language)') 
bs = BeautifulSoup(html, 'html.parser') 

content = bs.find('div', {'id':'mw-content-text'}).get text() 

ngrams = getNgrams(content, 2) 

print(ngrams) 

print('2-grams count is: '+str(Len(ngrams))) 





getNgrams 函数 把 一 个 待 处 理 的 字符 串 分 成 单词 序列 (假设 所 有 单词 按照 空格 分 开 )， 然 后 
增加 到 n-gram 模型 (本 例 中 是 2-gram) 里 形成 以 每 个 单词 开始 的 一 元 数组 。 


这 段 程序 会 从 文字 中 返回 一 些 有 意思 同时 也 很 有 用 的 2-gram: 


['of', 'free'], ['free', 'and'], ['and', 'open-source'], ['open-source', 'softwa 
re'] 


\ 过 ， 同 时 也 会 返回 一 些 零乱 的 数据 ; 





['software\nOutline\nSPDX\n\n\n\n\n\n\n\n\nOperating', 'system\nfamilies\n\n\n\n 
AROS\nBSD\nDarwin\neCos\nFreeDOS\nGNU\nHaiku\nInferno\nLinux\nMach\nMINIX\nOpenS 
olaris\nplan'], ['system\nfamilies\n\n\n\nAROS\nBSD\nDarwin\neCos\nFreeDOS\nGNU\ 
nHaiku\nInferno\nLinux\nMach\nMINIX\nOpenSolaris\nplan', '9\nReact0OS\nTUD:0S\n\n 
\n\n\n\n\In\n\nDevelopment\n\n\n\nBasic'], ['9\nReactOS\nTUD:0S\n\n\n\In\In\in\n\n\in 
Development\n\n\n\nBasic', 'For'] 


男 外， 因为 要 为 每 个 单词 (除了 最 后 一 个 单词 ) 创建 一 个 2-gram， 所 以 写作 本 书 时 这 个 词 
条 里 共有 7411 个 2-gram。 这 并 不 是 一 个 非常 便于 管理 的 数据 集 ! 
































我 们 首先 用 一 些 正则 表达 式 来 移 除 转 义 字符 (如 \n)， 再 把 Unicode 字符 过 滤 掉 。 可 以 通 
过 下 面 的 函数 对 之 前 输出 的 结果 进行 清理 


import re 


def getNgrams(content, nN): 


content = re.sub('\n|[[\d+\]]', ' ', content) 
content = bytes(content, 'UTF-8') 

content = content.decode('ascii', 'ignore') 
content = content.split(' ') 

content = [word for word in content if word != ''] 
output = [] 


for i in range(len(content)-n+1): 
output.append(content[i:i+n]) 
return output 


这 将 内 容 中 的 换行 符 替换 成 空格 ， 移 除 形式 如 [123] 的 引用 ， 过 滤 掉 所 有 空 字符 串 (由 
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行 中 存在 多 个 空格 导致 的 )。 然 后 ， 把 内 容 转换 成 UTF-8 格式 以 消除 转 义 字符 。 





这 几 步 已 经 可 以 大 大 改善 输出 结果 了 ， 但 是 还 有 一 些 问题 





[ "years ' ， "ago( '] ， [' ago( '， We [Ss i [es "ls Es 'Stable'] 


你 可 以 通过 去 除 每 个 单词 前 后 的 所 有 标点 符号 进一步 改善 结果 。 这 样 保留 了 单词 中 间 的 连 
a i 符号 的 字符 串 。 





























当然 ， 标 点 符号 本 身 是 有 含义 的 ， 简 单 地 将 其 去 除 可 能 会 导致 丢失 一 些 有 价值 的 信息 。 例 


如 ， 一 个 句点 跟着 一 个 空格 用 来 表示 一 个 完整 句子 的 结束 。 你 可 
子 的 内 容 ， 而 是 仅 包含 同一 个 句子 中 的 内 容 。 


例如 ， 对 于 下 面 的 文本 : 





可 能 和希 


全 已 于- 











望 n-gram 中 没有 跨 句 


Python features a dynamic type system and automatic memory management. 


It supports multiple programming paradigms... 














是 无 效 的 。 





其 中 2-gram '['memory'，'management']' 是 有 效 的 ， 而 2-gram '['management' ， "It']' 则 


现在 “清洗 任务 ”列表 变 得 越 来 越 长 ， 并 且 你 还 引入 了 “句子 ”的 概念 ， 使 得 你 的 程序 变 





得 更 加 复杂 ， 因 此 最 好 把 规则 都 移出 来 ， 创 建 4 个 不 同 的 函数 。 





from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import string 


def cleanSentence(sentence): 
sentence = sentence.split(' ') 


sentence = [word.strip(string.punctuation+string.whitespace) 


for word in sentence] 


sentence = [word for word in sentence if Len(word) > 1 


or (word.Lower() == 'a' or word.Lower() == 'i')] 
return sentence 


def cleanInput(content): 
content = re.sub('\n|[[\d+\]]', ' ', content) 
content = bytes(content, "UTF-8") 
content = content.decode("ascii", "ignore") 
sentences = content.split('. ') 


return [cleanSentence(sentence) for sentence in sentences] 


def getNgramsFromSentence(Content，n) : 
output = [] 
for i in range(len(content)-n+1): 
output .append(content[1i:t+n]) 
return output 
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def getNgrams(Content，n) : 
content = cleanInput(content) 
ngrams = [] 
for sentence in content: 
ngrams .extend(getNgramsFromSentence(sentence, n)) 
return(ngrams) 


getNgrams 仍然 是 程序 的 基本 切入 点 。cleanInput 像 以 前 一 样 移 除 所 有 的 换行 符 和 引用 ， 
并 且 还 基于 “句点 + 空格 ”将 文本 分 割 成 “句子 ”。 程 序 还 调用 了 cleanSentence 函数 ， 它 
将 句子 分 割 成 单词 ， 去 除 标点 符号 和 空白 ， 还 去 除 除 I 和 a 之 外 的 单字 符 单词 。 

















创建 n-gram 的 关键 代码 被 移动 到 getNgramsFromSentence 国 数 中 ， 它 在 每 个 句子 中 通过 
getNgrams 被 调用 ， 这 样 就 保证 了 n-gram 不 会 在 句子 之 间 创 建 。 











这 里 用 string.punctuation 和 string.whitespace 来 获取 Python 所 有 的 标点 符号 。 你 可 以 
在 Python 命令 行 看 看 string.punctuation 的 输出 : 





>>> import string 
>>> print(string.punctuation) 


1"#$%&" ()*+,-./:;<=>?@[\]^_ {1}~ 




















print(string.whitespace) 生成 的 输出 结果 不 那么 有 意思 (毕竟 它 只 是 空白 ) ， 但 是 会 包括 


空白 字符 ， 如 不 间断 空格 、 制 表 符 和 换行 符 。 





在 循环 体 中 用 item.strip(string.punctuation) 对 内 容 中 的 所 有 单词 进行 清洗 ， 单词 两 端 
的 任何 标点 符号 都 会 被 去 掉 ， 但 带 连 字符 的 单词 ( 连 字 符 在 单词 内 部 ) 仍然 会 保留 。 


这 样 输出 的 2-gram 结果 就 更 干净 了 : 



































[['Python', 'Paradigm'], ['Paradigm', 'Object-oriented'], ['O0bject-oriented', 
'imperative'], ['imperative', 'functional'], ['functional', 'procedural'], 
['procedural', 'reflective'],... 


数据 标准 化 
每 个 人 都 会 遇 到 一 些 样式 设计 不 够 人 性 化 的 网 页 ， 比 如 “请 输入 你 的 电话 号 码 。 号 码 格式 


必须 是 XXX-XXX-XXXX”。 


作为 一 名 优秀 的 程序 员 ， 你 可 能 会 问 :“ 为 什么 不 自动 地 对 输入 的 信息 进行 清洗 ， 去 掉 非 
数字 内 容 ， 然 后 自动 给 数据 加 上 分 隔 符 呢 ? ”数据 标准 化 过 程 要 确保 请 洗 后 的 数据 在 语言 
学 或 逻辑 上 是 等 价 的 ， 比 如 (555) 123-4567 和 555.123.4567 这 两 种 形式 的 电话 号 码 实际 上 
是 一 样 的 。 

















还 用 上 一 市 的 n-gram 示例 ， 让 我 们 在 其 中 增加 一 些 数据 标准 化 特征 。 
这 段 代码 有 一 个 明显 的 问题 ， 就 是 输出 结果 中 包含 很 多 重复 的 2-gram 序列 。 程 序 把 每 个 
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2-gram 序列 都 加 入 了 列表 ， 没 有 统计 过 序列 的 频率 。 记 录 这 些 2-gram 序列 的 频率 ， 而 不 
只 是 知道 某 个 序列 是 否 存在 ， 这 不 仅 很 有 意思 ， 而 且 有 助 于 对 比 不 同 的 数据 清洗 和 数据 标 
准 化 算法 的 效果 。 如 果 数 据 标准 化 成 功 了 ， 那 么 唯一 的 n-gram 序列 的 数量 就 会 减少 ， 而 
n-gram 序列 的 总 数 ( 即 被 认定 为 n-gram 的 唯一 或 不 唯一 的 项 目的 数量 ) 不 变 。 也 就 是 说 ， 
对 于 同样 数量 的 n-gram 序列 ， 经 过 去 重 之 后 “ 桶 ”(bucket) 会 减少 。 


你 可 以 修改 代码 ， 将 n-gram 结果 加 入 到 一 个 Counter 对 象 中 ， 而 不 是 列表 中 : 












































from collections import Counter 


def getNgrams(content, nN): 

content = cleanInput(content) 

ngrams = Counter() 

for sentence in content: 
newNgrams = [' '.join(ngram) for ngram in 

getNgramsFromSentence(sentence, 2)] 

ngrams .update(newNgrams) 

return(ngrams) 























当然 还 有 其 他 实现 方式 ， 例 如 将 n-gram 结果 加 入 到 一 个 字典 对 象 中 ， 其 中 列表 是 键 ， 其 
出 现 的 次 数 是 对 应 的 值 。 该 方法 的 缺点 是 它 需 要 更 多 的 管理 和 排序 技巧 。 但 是 使 用 一 个 
Counter 对 象 也 有 其 缺点 : 它 不 能 存储 列表 (因为 列表 是 不 可 散 列 的 )， 因 此 你 需要 首先 在 
对 每 个 n-gram 做 列表 综合 时 用 '' ' .join(ngram)' 将 列表 转换 成 字符 串 。 














结果 如 下 : 


Counter({'Python Software': 37, 'Software Foundation': 37, 'of the': 34, 
"of Python': 28, 'in Python': 24, 'in the': 23, 'van Rossum': 20, 'to the': 
20, 'such as': 19, 'Retrieved February': 19, 'is a': 16, 'from the': 16， 
"Python Enhancement': 15,... 


在 写作 本 书 的 时 候 ， 词 条 内 容 一 共有 7275 个 2-gram 序列 ， 其 中 不 重复 的 2-gram 序列 有 
5628 个 ， 出 现 频率 最 高 的 2-gram 序列 是 “Software Foundation” 和 “Python Software”。 但 
是 ， 仔 细 观 察 结 果 会 发 现 ,， “Python Software” 还 以 “Python software” 的 形式 出 现 两 次 。 
同样 , “van Rossum” 和 “Van Rossum” 也 是 作为 两 个 序列 统计 的 。 








因此 ， 增 加 一 行 代码 到 cleanInput 国 数 里 : 
content = content.upper() 


这 样 2-gram 序列 的 总 数 还 是 7275， 而 不 重复 的 2-gram 序列 减少 到 了 5479 个 。 





除 此 之 外 ， 还 需要 再 考虑 一 下 ， 自 己 计划 为 数据 标准 化 投入 多 少 计算 能 力 。 在 很 多 情况 
下 ,单词 的 不 同 拼写 形式 其 实 是 等 价 的 ， 但 是 为 了 处 理 这 种 等 价 关 系 ， 你 需要 对 每 个 单词 
进行 检查 ， 以 判断 它 是 否 和 其 他 单词 有 等 价 关 系 。 
































比如 , “Python lst” 和 “Python first” 都 出 现在 2-gram 序列 列表 里 。 但 是 ， 如 果 增 加 一 条 
规则 :“ 让 first、second、third…… 与 1st、2nd、3rd…… 等 价 ”"， 那 么 每 个 单词 都 要 额外 增 
加 十 几 次 检查 。 


， 连 字符 使 用 不 一 致 〈( 像 “co-ordinated” 和 “coordinated” ) 、 单 词 拼写 错误 以 及 其 他 
(incongruities) ， 都 可 能 对 n-gram 序列 的 分 组 结果 造成 影响 ， 如 果 语 病 很 严重 的 话 ， 
还 可 能 会 彻底 打 乱 输出 结果 。 





















































对 带 连 字符 单词 的 一 种 处 理 方 法 是 ， 先 把 连 字 符 去 掉 ， 然 后 把 单词 当 作 一 个 字符 串 ， 这 
只 需要 一 步 操 作 。 但 是 ， 这 样 做 也 会 把 带 连 字符 的 短语 (这 是 很 常见 的 ， 比 如 “just-in- 
time”“object-oriented” 等 ) 处 理 成 一 个 字符 串 。 要 是 换 一 种 做 法 ,把 连 字 符 替 换 成 空格 可 能 
更 好 一 点 儿 。 但 是 你 就 会 见 到 “co ordinated” 和 “ordinated attack” 之 类 的 2-gram 序列 了 | 


米 : 老 : 

8.2 数据 存储 后 再 清 ; 

对 于 编写 代码 清洗 数据 ， 你 能 做 或 想 做 的 事情 只 有 这 些 。 除 此 之 外 ， 你 可 能 还 需要 处 理 一 
个 由 别人 创建 的 数据 集 ， 或 者 一 个 没 见 过 就 不 知 该 如 何 清洗 的 数据 集 。 





























很 多 程序 员 遇 到 这 种 情况 的 自然 反应 就 是 “ 写 个 脚本 ”， 当 然 这 也 是 一 个 很 好 的 解决 方法 。 
但 是 ， 还 有 一 些 第 三 方 工具 ， 像 OpenRefine， 不 仅 可 以 快速 简单 地 清洗 数据 ， 还 能 让 非 编 
程 人 员 轻 松 地 看 见 和 使 用 你 的 数据 。 








OpenRefine 


OpenRefine 是 Metaweb 公司 在 2009 年 启动 的 一 个 开源 项 目 。Google 在 2010 年 收购 
了 Metaweb， 并 把 该 项 目的 名 称 从 Freebase Gridworks 改 成 了 Google Refine。2012 年 ， 
Google 放弃 了 对 Refine 的 支持 ， 让 它 重新 成 为 开源 软件 ， 并 将 名 字 改 成 了 OpenRefine， 
现在 每 个 人 都 可 以 为 这 个 项 目 做 贡献 。 








斗士 


1. 安 卖 
OpenRefine 的 独特 之 处 在 于 虽然 它 的 界面 运行 在 浏览 器 中 ， 但 它 实 际 上 是 一 个 桌面 应 用 ， 
必须 下 载 并 安装 。 你 可 以 从 它 的 网 站 下 载 对 应 Linux、Windows 和 macOS 系统 的 版 本 。 


如 果 你 是 Mac 用 户 ， 在 打开 安装 文件 的 时 候 遇 到 了 安装 权限 问题 ， 请 到 “ 系 
统 偏好 设置 一 安全 性 与 隐私 一 通用 ”， 把 “允许 从 以 下 位 置 下 载 应 用 ”的 
选项 设置 为 “任何 来 源 ”。 不 幸 的 是 ， 从 Google 项 目 转变 成 开源 项 目 之 后 ， 
OpenRefine 好 像 在 苹果 系统 中 失去 了 合法 性 ， 不 再 是 来 源 合法 的 应 用 程序 了 。 














要 想 使 用 OpenRefine， 你 需要 把 数据 保存 为 CSV 文件 〈 如 果 你 需要 了 解 如 何 操作 ， 请 参 
芳 6.2 节 )。 另 外 ， 如 果 你 的 数据 已 经 保存 在 数据 库 中 ， 你 可 以 把 数据 导出 为 CSV 文件 。 
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2. 使 用 OpenRefine 

在 下 面 的 例子 中 ， 我 们 将 使 用 维基 百科 的 “文本 编辑 器 对 比 ”表格 (https://en.wikipedia. 
org/wiki/Comparison of text_ editors) 里 的 内 容 ， 如 图 8-1 所 示 。 虽 然 这 个 表格 的 样式 比 
较 规 范 ， 但 里 面包 含 了 多 次 编辑 的 痕迹 ， 所 以 还 是 有 一 些 样式 不 一 致 的 地 方 。 另 外 ， 因 
为 这 个 数据 是 写 给 人 而 不 是 机 器 看 的 ， 所 以 原来 使 用 的 一 些 样式 〈 比 如 用 “Free” 而 不 是 
“$0.00”) 不 太 合 适 作为 OpenRefine 程序 的 输入 数据 。 



























































75 rows Extensions: Freebase ~ 
Show as: rows records Show: 5 10 25 50 rows « first « previous 1 - 50 next last» 
了 Al 了 | Name 了 | creator | First public relez 了 | Latest stable vel | | Programming language | | Cost (US$) 了 | Software license [| Open source 

1 Acme Rob Pike 1993 Plan9and infemo C $0 LPL(OSIapproved) Yes 

2. AkelPad Alexey Kuznetsov, Alexander 2003 490 C S0 BSD Yes 

3. Alphatk Vince Darley 1999 8.3.3 $40 Proprietary with BSD No 

components 
4. Aquamacs David Reitter 2005 3.0a C, Emacs Lisp S0 GPL Yes 
5. Atom Github 2014 0.132.0 HTML CSS, JavaScript, $0 MT Yes 
C++ 

6. BBEdit Rich Siegel 1992-04 10.5.12 Objective-C, Objective-C++ ~ $49.99 Proprietary No 

7. Bluefish Bluefish Development Team 1999 226 c $0 GPL Yes 

8. Coda Panic 2007 2.0.12 Objective-C $99 Proprietary No 

9. ConTEXT ConTEXT Project Lid 1999 0.98.6 Object Pascal (Delphi) $0 BSD Yes 

10. Crimson Editor 。 Ingyu Kang, Emerald Editor Team 1999 3.72 C++ $0 GPL Yes 

11. Diakonos Pistos 2004 092 Ruby $0 MIT Yes 

12. ETextEditor AlexanderStigsen 2005 2.0.2 $46.95 Proprietary, with BSD No 

components 
13. ed Ken Thompson 1970 unchangedfrom  C $0 这 Yes 
original 
14. EditPlus Sangil Kim 1998 35 Cr+ $35 Shareware No 
15. Editra Cody Precord 2007 0.677 Python $0 windowslicense Yes 











8-1: 显示 在 OpenRefine 主屏 幕 上 的 维基 百科 的 “文本 编辑 器 对 比 ”表格 数据 


使 用 OpenRefine 时 会 看 到 每 一 列 的 标签 旁边 都 有 一 个 第 头 。 这 个 第 头 提 供 了 一 个 工具 菜 
单 ， 可 以 对 这 一 列 数据 执行 筛选 、 排 序 、 变 换 或 删除 操作 。 


筛选 。 数 据 饰 选 可 以 通过 两 种 方法 实现 : 过 滤器 (filter) 和 切片 器 (facet)。 过 滤器 可 以 用 
正则 表达 式 往 选 数据 ， 比 如 “只 显示 “Programming language” 这 一 列 中 包含 3 种 或 以 上 用 
过 号 分 隔 的 编程 语言 的 所 有 行 "， 结 果 如 图 8-2 所 示 。 





可 以 通过 右边 的 操作 框 轻松 地 组 合 、 编 辑 和 增加 过 滤器 。 过 滤器 还 可 以 和 切片 器 配合 使 用 。 





Facet/Filter Undo/Redo1 5 matching rows (75 total) 
Refresh Reset All ， Remove All Show as: rows records Show: 5 10 25 50 rows 
x Programming language vAll 了 | Name 了 | Creator ,了 | First public re 
5. Atom Github 201 
.二 十， 十 
28. Komodo Edit Activestate ”open-sourced 2007 
口 case sensitive ”加 regular expression 2 200 
59. Sublime Text Jon Skinner 200 
74. Zed Zef Hemel 201 











8-2: 正则 表达 式 “.+,.+,.+” 选 择 至 少 有 3 种 且 用 逗号 分 隔 的 编程 语言 的 所 有 行 
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切片 器 可 以 很 方便 地 对 一 列 的 部 分 数据 进行 包含 和 不 包含 的 筛选 (比如 ,， “显示 使 用 GPL 
和 MIT 授权 且 在 2005 年 之 后 首次 发 行 的 所 有 行 ”， 如 图 8-3 所 示 )。 它 们 都 有 内 置 的 筷 选 
工具 。 例 如 ， 数 值 筛选 功能 会 为 你 提供 一 个 数值 请 动 条 ， 让 你 选择 需要 的 数值 区 间 。 








Facet /Filter © Undo/Redo1 7 matching rows (75 total) 

Refresh Reset All Remove All, Showas: rows records Show: 5 10 25 50 rows 

x Software license change invert reset] | 了 | All viName |v Creator YFirst public r 

i 4. id Rei C 

5 choices Sort by: name count Cluster Aquamacs David Reitter 2 
5. Atom Github 2C 

GPL 5 exclude 

MIT cd 19. Geany Enrico Trvager 2C 

Proprolary 6 21. Gobby 0x539 dev group 2 

Proprietary, with BSD components 1 33. Light Table Chris Granger 2 

wxWindows license 1 73. Yi Don Stewart 2C 
74. Zed Zef Hemel 2C 


Facet by choice counts 


x First public release change reset 


2,005.00 — 2,015.00 


加 Numeric DNon-numeric DDBlank DError 
a 











图 8-3: 显示 使 用 GPL 和 MIT 授权 且 在 2005 年 之 后 首次 发 行 的 所 有 行 


筛选 后 的 数据 可 以 导出 为 OpenRefine 支持 的 任意 一 种 数据 文件 格式 ， 包 括 CSV、HTML 
(HTML 表格 )、Excel 以 及 其 他 格式 。 


清洗 。 只 有 当 数 据 比 较 干 净 时 ， 数 据 筛选 才能 成 功 完成 。 例 如 ， 在 前 面 切片 器 的 例子 中 ， 
有 个 文本 编辑 器 的 发 行 日 期 是 “01-01-2006”， 而 要 寻找 的 数值 是 “2006”， 所 以 它 不 能 匹 
配 ， 会 被 忽略 挤 ， 因 此 在 “First public release” 切 片 器 中 就 不 会 显示 了 。 








OpenRefine 的 数据 变换 功能 是 通过 OpenRefine 表达 式 语 言 (OpenRefine Expression Language， 
GREL， 其 中 “G” 代 表 OpenRefine 之 前 的 名 字 GoogleRefine) 实现 的 。 这 种 语言 通过 创 
建 规则 简单 的 Lambda 函数 来 实现 数据 的 转换 。 例 如 : 


if(value.length() != 4, "invalid", value) 





如 果 把 这 个 函数 应 用 到 “First stable release” 列 ， 它 就 只 会 保留 那些 “YYYY” 形 式 的 数 
值 ， 把 其 他 数值 标记 成 invalid (无 效 数据 )， 如 图 8-4 所 示 。 
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Custom text transform on column First public release 





Expression Language | Google Refine Expression Language (GREL) > | 








if(value.length() != 4，"invalid"，value) No syntax error 


Preview History Starred Help 


. 1999 1999 
. 1993 1993 
.1991 1991 
. 1985 1985 
. 2003-11-25 invalid 
. 2004-04 invalid 
. 1995 1995 


n 六 i 


On error 图 keep original 口 Re-transform up to |10] times until no change 
O setto blank 
O store error 


OK Cancel 














图 8-4: 在 项 目 中 插入 一 行 GREL 语句 (结果 预览 显示 在 语句 下 面 ) 


点 击 列 标签 旁边 的 向 下 箭头 ， 再 点 击 “Edit cells” 一 “Transform”， 就 可 以 使 用 任何 GREL 
语句 。 


但 是 ， 把 不 符合 条 件 的 数据 标记 成 无 效 数据 ， 虽 然 可 以 让 它们 变 得 容易 识别 ， 但 是 对 我 们 
来 说 用 处 不 大 。 更 好 的 做 法 是 尽 可 能 地 修复 那些 格式 不 规范 的 数据 。 这 可 以 用 GERL 的 
match 函数 实现 : 
value.match(".*([0-9]{4}).*").get(0) 

这 试图 用 正则 表达 式 对 字符 串 数 据 进行 匹配 。 如 果 正 则 表达 式 能 够 匹配 出 结果 ， 就 会 返回 
一 个 数组 。 任 何 符合 正则 表达 式 “ 捕 获 组 ”(capture group) 条 件 的 子 字符 串 ( 指 的 是 括号 
里 的 表达 式 ， 本 例 中 是 [9-9]{4}) 都 会 作为 数组 数值 返 
其 实 ， 这 行 代码 会 从 一 个 单元 格 中 找 出 所 有 连续 的 4 位 整数 ， 然 后 返回 第 一 个 匹配 结果 。 
一 般 情况 下 ， 这 完全 可 用 于 从 文本 或 格式 不 规范 的 日 期 数据 中 提取 年 份 。 如 果 正 则 表达 式 
没有 找到 年 份 ， 就 会 返回 nutl。(GREL 在 操作 null 变量 的 时 候 不 会 抛 出 空 指针 异常 。) 








回 


o 


通过 单元 格 编辑 和 GREL 还 可 以 实现 很 多 其 他 的 数据 变换 。GREL 的 完整 指南 请 参见 
OpenRefine 的 GitHub 页 面 。 
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到 目前 为 止 ， 我们 处 理 的 数据 大 部 分 都 是 数字 或 数值 。 大 多 数 情况 下， 我 们 只 是 简单 地 存 
储 数据 ， 没 有 分 析 数 据 。 在 这 一 章 里 ， 我 们 将 尝试 探索 英语 这 个 复杂 的 主题 。 


当 你 在 Google 的 图 片 搜索 里 输入 “cute kitten” 了 时 ，Google 怎么 会 知道 你 要 搜索 什么 呢 ? 
那 是 因为 可 爱 小 猫咪 的 图 片 中 常常 带 有 这 个 词组 。 当 你 在 YouTube 搜索 框 中 输入 “dead 
parrot” 时 ，YouTube 怎么 会 知道 要 推荐 一 些 Monty Python 团体 的 幽默 短 剧 呢 ? 那 是 因为 
每 个 上 传 的 视频 里 都 带 有 标题 和 简介 文字 。 














其 实 ， 输 入 “deceased bird monty python ”这 类 短语 时 ， 也 会 立即 显示 “Dead Parrot” 幽 默 
短 剧 ， 即 使 页 面 本 身 不 包含 单词 “deceased” 或 “bird”。Google 知道 “hot dog” 是 一 种 食 
物 ，“boiling puppy” 却 是 另 一 种 完全 不 同 的 东西 。 它 究竟 是 怎么 实现 的 呢 ? 其 实 这 一 切 都 
是 统计 学 在 起 作用 ! 


虽然 你 可 能 认为 自己 的 项 目 和 文本 分 析 没 有 任何 关系 ， 但 是 理解 文本 分 析 的 原理 对 各 种 机 
器 学 习 场 景 都 是 非常 有 用 的 ， 而 且 还 可 以 提高 自己 利用 概率 论 和 算法 知识 对 现实 问题 进行 
建 模 的 能 力 。 


例如 ，Shazam 音乐 雷达 是 一 种 可 以 识别 出 一 段 音频 中 包含 哪 首 歌 的 服务 ， 即 使 音频 中 包 











注 1: 虽然 这 一 章 介 绍 的 很 多 方法 可 以 用 于 大 多 数 语 种 ,但 是 目前 只 关注 英语 的 自然 语言 处 理 是 没有 问题 的 。 
像 Python 的 自然 语言 处 理工 具 包 (NLTK) 就 是 面向 英语 的 。 互 联网 上 56% 的 内 容 依 然 是 英文 (其 
次 是 俄语 ， 只 占 6%，http://w3techs.com/technologies/overview/content language/all)。 但 是 谁 知道 未 来 
会 怎样 呢 ? 英语 占 互联 网 大 头 的 情况 未 来 几乎 肯定 会 变化 ， 几 年 后 可 能 就 需要 更 新 。 
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含 了 环境 噪声 或 失真 也 没 问题 。Google 正在 实现 基本 图 片 本 身 自 动 给 图 片 添加 说 明文 字 。” 
比如 ， 通 过 对 比 已 知 的 热狗 图 片 和 其 他 热狗 图 片 ， 搜 索引 擎 就 可 以 不 断 地 学 习 到 热狗 的 特 
征 ， 然 后 对 其 他 图 片 进 行 模式 识别 ， 从 而 判断 是 不 是 热狗 图 片 。 


9.1 
第 8 章 介绍 过 如 何 把 文本 内 容 分 解 成 n-gram 模型 ， 或 者 长 度 为 n 个 单词 的 短语 。 从 基本 功 
能 上 说 ， 这 可 以 用 来 确定 一 段 文字 中 最 常用 的 单词 和 短语 。 另 外 ， 还 可 用 来 从 原文 中 提取 
包含 最 常用 的 短语 的 句子 ， 从 而 对 原文 进行 合理 的 概括 。 
































概括 数据 














我 们 即将 用 来 做 数据 归纳 的 文字 样本 源 自 美国 第 九 任 总 统 威廉 : 享 利 .哈里 和 森 的 就 职 演 说 。 
哈里 森 的 总 统 生 涯 创下 美国 总 统 任职 历史 的 两 个 记录 : 一 个 是 最 长 的 就 职 演说 ， 另 一 个 是 
最 短 的 任职 时 间 一 一 32 天 。 














我 们 将 用 他 的 总 统 就 职 演 说 的 全 文 (http://pythonscraping.com/files/inaugurationSpeech.txt) 
作为 这 一 章 许 多 示例 代码 的 数据 源 。 


简单 修改 一 下 我 们 在 第 8 章 用 过 的 n-gram 模型 ， 就 可 以 用 来 获得 2-gram 序列 的 频率 数据 ， 








并 返回 一 个 2-gram 的 Counter 对 象 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import string 

from collections import Counter 


def 


def 


def 


cleanSentence(sentence): 

sentence = sentence.split(' ') 

sentence = [word.strip(string.punctuation+tstring.whitespace) 
for word in sentencel] 

sentence = [word for word in sentence if Len(word) > 1 
or (word.Lower() == 'a' or word.Lower() == 'i')] 

return sentence 


cleanInput(content): 

content = content.upper() 

content = re.sub('\n', ' ', content) 

content = bytes(content, "UTF-8") 

content = content.decode("ascii", "ignore") 

sentences = content.split('. ') 

return [cleanSentence(sentence) for sentence in sentences] 


getNgramsFromSentence(content, nN): 
output = [] 





注 2: 


Oriol Vinyals et al, “A Picture Is Worth a Thousand (Coherent) Words: Building a Natural Description of 
Images” , Google Research Blog, November 17, 2014. 
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for i in range(Len(content) -n+1) : 
output.append(content[i:i+n]) 
return output 


def getNgrams(content, nN): 

content = cleanInput(content) 

ngrams = Counter() 

ngrams_list = [] 

for sentence in content: 
newNgrams = [' '.join(ngram) for ngram in 

getNgramsFromSentence(sentence, 2)] 

ngrams_list.extend(newNgrams) 
ngrams .update(newNgrams) 

return(ngrams) 


content = str( 
urlopen('http://pythonscraping.com/files/inaugurationSpeech.txt') 
.read(), 'utf-8') 
ngrams = getNgrams(content, 2) 
print(ngrams) 


输出 结果 的 一 部 分 是 : 
Counter({'OF THE': 213，'IN THE': 65, 'TO THE': 61, 'BY THE' : 41， 


'THE CONSTITUTION': 34, 'OF OUR': 29, 'TO BE': 26, 'THE PEOPLE': 24， 
"FROM THE': 24, 'THAT THE': 23,... 





在 这 些 2-gram 序列 中 ,“the constitution” 像 是 演说 的 主旨 ，“of the”“in the” 和 “to the” 
看 起 来 并 不 重要 。 怎 么 才能 用 准确 的 方式 去 掉 这 些 不 想 要 的 词 呢 ? 


前 人 已 经 仔细 地 研究 过 这 些 “ 有 意义 的 ”单词 和 “ 没 意 义 的 ”单词 的 差异 了 ， 他 们 的 工作 
可 以 帮助 我 们 完成 过 滤 工 作 。 美 国 杨 百 翰 大 学 的 语言 学 教授 Mark Davies 一 直 在 维护 当代 
美式 英语 语料库 (Corpus of Contemporary American English)， 里 面包 含 了 过 去 10 多 年 美 
国 流 行 出 版 物 中 的 超过 4.5 亿 个 单词 。 























最 常用 的 5000 个 单词 列表 可 以 免费 获取 ， 作 为 一 个 基本 的 过 滤器 来 过 滤 最 常用 的 2-gram 
序列 绰绰有余 。 其 实 只 用 前 100 个 单词 就 可 以 大 幅 改 善 分 析 结 果 ， 我 们 增加 一 个 isCommon 
国 数 来 实现 : 





def isCommon(ngram): 
commonWords = ['THE', 'BE', 'AND', 'OF', 'A', 'IN', 'TO', 'HAVE', 'IT', 'I', 

'THAT', 'FOR', 'YOU', 'HE'’, 'WITH', 'ON', 'DO', 'SAY', 'THIS', 'THEY', 
'IS', 'AN', 'AT', 'BUT', 'WE', 'HIS', 'FROM', 'THAT', 'NOT', 'BY', 
'SHE', 'OR', 'AS', 'WHAT', 'GO', 'THEIR', 'CAN', 'WHO', 'GET', 'IF', 
'WOULD', 'HER', 'ALL', 'MY', 'MAKE', 'ABOUT', 'KNOW', 'WILL', 'AS', 
'UP', 'ONE', 'TIME', 'HAS', 'BEEN', 'THERE', 'YEAR', 'SO', 'THINK', 
'WHEN', 'WHICH', 'THEM', 'SOME', 'ME', 'PEOPLE', 'TAKE', 'OUT', 'INTO', 
'JUST', 'SEE', 'HIM', 'YOUR', 'COME', 'COULD', 'NOW', 'THAN', 'LIKE', 
'OTHER', 'HOW', 'THEN', 'ITS', 'OUR', 'TWO', 'MORE', 'THESE', 'WANT', 
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'WAY', 'LOOK', 'FIRST', 'ALSO', 'NEW', 'BECAUSE', 


'DAY', 'MORE', 'USE', 


'NO', 'MAN', 'FIND', 'HERE', 'THING', 'GIVE', 'MANY', 'WELL'] 
for word in ngram: 


if word in commonWords: 
return True 


return False 


尘 处 理 之 后 ， 就 可 以 得 到 在 样本 文字 中 














Counter({ "UNITED STATES': 10, 'EXECUTIVE DEPARTMENT': 4, 
'GENERAL GOVERNMENT': 4, 'CALLED UPON': 3, 'CHIEF MAGISTRATE': 3, 
'LEGISLATIVE BODY': 3, 'SAME CAUSES': 3, 'GOVERNMENT SHOULD': 3， 


'WHOLE 


COUNTRY ' : 3,... 


昌 现 频率 不 低 于 3 次 的 2-gram 序列 ， 如 下 所 示 : 


效果 看 着 不 错 ， 列 表 中 的 前 两 项 是 “United States” 和 “executive department”， 和 我 们 对 
总 统 就 职 演 说 的 期 待 是 一 样 的 。 








这 里 需要 注意 的 是 ， 我 们 是 用 比较 新 的 常用 词 列表 过 滤 结 果 的 ， 这 对 1841 年 写 出 来 的 文 





字 来 说 可 能 不 是 非常 合适 。 但 是 ， 因 为 我 们 只 月 








日 了 列表 里 的 前 100 个 单词 





我 们 姑且 可 


以 认为 ， 随 着 年 代 的 变化 ， 这 100 个 单词 应 该 比 列表 最 后 的 100 个 单词 更 具 稳定 性 一 一 而 
且 也 获得 了 满意 的 结果 ， 所 以 好 像 也 不 必 挖 掘 或 创建 一 个 1841 年 最 常用 的 单词 列表 ( 虽 
然 这 样 的 努力 可 能 会 很 有 趣 ) 。 


现在 一 些 核 心 的 主题 词 已 经 从 文本 中 抽取 











来 了 ， 它 们 怎么 帮助 我 们 归纳 这 段 文 字 呢 ?一 


种 方法 是 搜索 包含 每 个 核心 n-gram 序列 的 第 一 句 话 ， 这 种 方法 的 理论 是 英语 中 段落 的 首 名 











往生 











EE 是 对 后 














面 内容 的 概述 。 前 5 个 2-gram 序列 的 搜索 结果 如 下 。 








。 The Constitution of the United States is the instrument containing this grant of power to the 


several departments composing the government. 


。 Such a one was afforded by the executive department constituted by the Constitution. 


。 The general government has seized upon none of the reserved rights of the states. 


Called from a retirement which I had supposed was to continue for the residue of my life 
to fll the chief executive office of this great and free nation, I appear before you, fellow- 
citizens, to take the oaths which the constitution prescribes as a necessary qualification for the 
performance of its duties; and in obedience to a custom coeval with our government and what 
I believe to be your expectations I proceed to present to you a summary of the principles which 
will govern me in the discharge of the duties which I shall be called upon to perform. 

The presses in the necessary employment of the government should never be used to clear the 


guilty or to varnish crime. 


当然 ， 这 些 估 计 还 不 能 马上 发 布 到 CliffsNotes 上 面 ， 但 是 考虑 到 全 文 原 来 一 共有 217 名 
话 ， 而 这 里 的 第 四 句 话 (“Called from a retirement...”) 已 经 把 主题 总 结 得 很 好 了 ， 作 为 初 





稿 应 该 能 凑合 。 
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如 果 是 更 大 段 的 文本 ， 或 者 说 更 复杂 的 文本 ， 那 么 当 寻 找 段落 中 “最 重要 ”的 句子 时 ， 
可 能 需要 看 一 下 3-gram 甚至 是 4-gram 的 结果 。 在 本 例 中 只 有 3-gram “exclusive metallic 
currency” 被 多 次 使 用 ， 而 它 并 不 是 总 统 就 职 演讲 中 的 典型 短语 。 对 于 更 长 的 段落 ， 使 用 
3-gram 可 能 更 合适 。 


另外 一 种 方法 是 查看 包含 最 常用 的 n-gram 的 句子 。 显 然 ， 这 往往 是 更 长 的 句子 。 如 果 这 是 
个 问题 的 话 ， 你 可 以 寻找 常用 n-gram 比例 最 高 的 句子 ,或 者 自己 创建 一 个 评价 指标 ， 并 综 
合 多 种 技巧 。 


9.2 马尔 可 夫 模 型 


你 可 能 昕 说 过 马尔 可 夫 文 本 生成 器 。 它 们 因为 两 种 用 途 而 非常 受 欢迎 娱乐， 比如 用 在 
That can be my next tweet! 应 用 中 ; 用 于 生成 台 真 的 垃圾 邮件 来 加 弄 检测 系统 。 















































这 些 文本 生成 器 都 基于 马尔 可 夫 模 型 。 马 尔 可 夫 模 型 常用 于 分 析 大 量 的 随机 事件 ， 其 中 一 
个 离散 事件 发 生 之 后 ， 另 一 个 离散 事件 会 以 一 定 的 概率 发 生 。 


例如 ， 我 们 可 以 对 一 个 天 气 系统 建立 马尔 可 夫 模 型 ， 如 图 9-1 所 示 。 














15% 














9-1: 马尔 可 夫 模 型 描述 一 个 理论 上 的 天 气 系统 


在 这 个 天 气 系 统 模型 中 ， 如 果 今 天 是 晴天 ， 那 么 明天 有 70% 的 概率 是 晴天 ，20% 的 概率 
多 云 ，10% 的 概率 下 两。 如 果 今 天 是 下 雨天 ， 那 么 明天 有 50% 的 概率 也 下 雨 ，25% 的 概 
率 是 晴天 ，25% 的 概率 是 多 云 。 








你 可 能 注意 到 了 马尔 可 夫 模 型 的 几 个 性 质 。 





。 任何 一 个 节点 引出 的 所 有 概率 之 和 必须 等 于 100%。 无 论 是 多 么 复杂 的 系统 ， 必 然 会 在 
下 一 步 发 生 若干 事件 中 的 一 个 事件 。 
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。 虽然 这 个 天 气 系统 丰 





态 的 无 限 列表 。 
。 只 有 当前 节点 的 状态 会 影响 后 一 天 的 状态 。 如 果 你 在 “晴天 ”节点 上 ， 即 使 前 100 天 都 
是 晴天 或 雨天 也 没关系 ， 明 天 晴天 的 概率 依然 是 70%。 


。 有 些 节 点 可 能 比 其 他 节点 更 x 
可 以 直观 地 看 出 ， 在 这 个 系统 中 ， 在 任意 时 间 点 上 ， 第 二 天 是 “用 




















E 任 意 时 刻 都 只 有 3 种 可 能 ， 但 是 你 可 以 用 这 个 模型 生成 一 个 天 气 状 


任 到 达 。 这 个 现象 的 原因 从 数学 角度 来 解释 非常 复杂 ， 但 


是 
天 ”的 可 能 性 (指向 





它 的 箭头 的 概率 之 和 小 于 “100%”) 要 比 “ 晴 天 ”或 “多 云 ”小 很 多 。 


很 明显 ， 这 是 一 个 很 简单 的 系统 ， 而 马尔 可 夫 模型 可 以 演化 成 任意 规模 的 复杂 系统 。 事 
上 ，Google 的 PageRank 算法 也 是 部 分 基于 马尔 可 夫 模 型 ， 网 站 表示 为 节点 ， 入 站 /出 站 











链接 表示 为 节点 之 间 的 连 线 。 连 接 某 一 个 节点 的 “可 能 性 ”(likelihood) 表示 一 个 网 站 的 


相对 受 欢迎 程度 。 也 就 是 说 ， 如 果 我 们 和 




















页 面 等 级 (page rank) 相对 比较 低 ， 而 “多 云 ”的 页 面 等 级 相对 比较 高 。 


了 解 了 这 些 概念 之 后 ， 让 我 们 











还 用 前 画 





i 例子 里 分 析 的 威廉 .亨利 * 哈 里 森 的 就 职 演讲 内 容 ， 我 们 可 以 写 出 











的 天 气 系统 代表 一 个 微型 互联 网 ， 那 么 “雨天 ”的 


回 到 本 市 的 主题 ， 研 究 一 个 具体 的 例子 : 文本 分 析 与 写作 。 








这 








看 的 代码 ， 





基于 文本 结构 生成 任意 长 度 (下 面 示例 中 链 长 为 100) 的 马尔 可 夫 链 。 


from urllib.request import urlopen 
from random import randint 


def 


de 


pe 


de 


pe 


wordListSum(wordList): 

Sum = 0 

for word, value in wordList.items(): 
sum += value 

return sum 


retrieveRandomWord(wordList): 
randIndex = randint(1, wordListSum(wordList)) 
for word, value in wordList.items(): 
randIndex -= value 
if randIndex <= 0: 
return word 


buildWordDict( text): 
# 剔除 换行 符 和 引号 
text = text.replace('\n', ' ') 
text = text.replace('"', '') 
# 保证 每 个 标点 符号 都 被 当 作 一 个 "单词 " 
# 这 样 就 不 会 被 别 除 ， 而 是 会 保留 在 马尔 可 夫 链 中 
punctuation = [',','.',';',':'"] 
for symbol in punctuation: 

text = text.replace(symbol, ' {} '.format(symbol)); 











words = text.split(' ') 
# 过 涉 空 单词 





120 | 


大 


第 9 章 


words = [word for word in words if word != '] 


wordDict = {} 
for i in range(1, len(words)): 
if words[i-1] not in wordDict: 
# 为 单词 新 建 一 个 字典 
wordDict[words[i-1]] = 全 
if words[i] not in wordDict[words[i-1]]: 
wordDict[words[i-1]][words[i]] = 
wordDict[words[i-1]][words[i]] += 1 
return wordDict 























text = str(urlopen('http://pythonscraping.com/files/inaugurationSpeech.txt') 
.read(), 'utf-8') 
wordDict = buildWordDict(text) 


# 生成 链 长 为 100 的 马尔 可 夫 链 

length = 100 

chain = ['I'] 

for i in range(0, length): 
newWord = retrieveRandomWord(wordDict[chain[-1]]) 
chain.append(newWord) 


print(' '.join(chain)) 








代码 的 输出 结果 每 次 都 会 变化 ， 下 面 是 其 中 一 个 “胡言 乱 语 ” 的 结果 : 











I sincerely believe in Chief Magistrate to make all necessary sacrifices and 
oppression of the remedies which we may have occurred to me in the arrangement 
and disbursement of the democratic claims them , consolatory to have been best 
political power in fervently commending every other addition of legislation , by 
the interests which violate that the Government would compare our aboriginal 
neighbors the people to its accomplishment . The latter also susceptible of the 
Constitution not much mischief , disputes have left to betray . The maxim which 
may sometimes be an impartial and to prevent the adoption or 


那么 代码 是 怎么 实现 的 呢 ? 


buiLdwordDict 函数 把 从 网 上 获取 的 演讲 文本 的 字符 串 作 为 参数 ， 然 后 对 字符 串 进 行 清理 
和 格式 化 处 理 ， 去 掉 引 号 ， 并 在 其 他 标点 符号 两 端 加 上 空格 ， 这 样 就 可 以 将 它们 当成 一 个 
单独 的 单词 。 最 后 ， 建 立 如 下 所 示 的 一 个 二 维 字典 一 一 字典 里 有 字典 : 

















{word_a : {word_b : 2, word c : 1, word d : 1}, 
word e : {word_b : 5, wordd : 2},...} 





在 这 个 字典 示例 中 ,“word a” 出 现 了 4 次 ， 有 两 次 后 面 跟着 “word_b”， 一 次 后 面 跟着 
word_c”， 一 次 后 面 跟 着 “word_d”。 有 7 个 “word_e” 后 面 跟着 单词 ， 其 中 有 5 次 后 国 
跟着 “word_b”， 两 次 后 面 跟着 “word_d”。 





























如 果 我 们 要 画 出 这 个 结果 的 节点 模型 ， 那么 代表 “word_a” 的 节点 将 有 一 个 (表示 50% 概 
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率 的 ) 箭头 指向 “word b”( 在 4 次 中 ， 有 2 次 是 它 跟 在 “word a” 后面 ), 一 个 (表示 
25% 概率 的 ) 箭头 指向 “word c"， 还 有 一 个 (表示 25% 概率 的 ) 箭头 指向 “word d 。 


字典 创建 之 后 ， 不 管 你 现在 位 于 文章 中 的 哪个 单词 之 上 ， 都 可 以 将 这 个 字典 作为 查询 表 来 
选择 下 一 个 节点 。 使 用 这 个 二 维 字典 ,如果 我 们 现在 位 于 “word_e” 节 点 ， 那 么 下 一 步 就 
要 把 字典 {word_b : 5，word_d : 2} 传 给 retrieveRandomWord 函数 。 这 个 函数 会 按照 字典 
中 单词 频次 的 权重 ， 随 机 获取 一 个 单词 。 

通过 先 确定 一 个 随机 的 开始 词 〈 示 例 中 用 的 是 常见 的 “) ， 我 们 可 以 轻易 地 遍历 马尔 可 夫 
链 ， 想 生成 多 少 单词 就 生成 多 少 。 


当 搜 集 的 文本 量 越 大 ， 尤 其 是 来 自 相似 写作 风格 的 数据 源 时 ， 这 些 马尔 可 夫 链 就 越 “ 真 实 ”。 
尽管 这 里 的 例子 使 用 2-gram 来 创建 马尔 可 夫 链 ( 即 用 前 一 个 单词 预测 下 一 个 单词 )， 但 你 也 
可 以 使 用 3-gram 或 者 更 高 阶 的 n-gram， 即 用 两 个 或 者 两 个 以 上 的 单词 预测 下 一 个 单词 。 



































在 网 站 抓 取 中 积累 的 兆 字 节 的 文本 数据 尽管 很 有 意思 并 且 很 有 用 ， 这 样 的 应 用 还 是 很 难看 
出 马尔 可 夫 链 的 实际 效果 。 正 如 本 市 前 面 提 到 的 ， 马 尔 可 夫 链 构建 的 模型 是 网 站 如 何 从 一 
个 页 面 链接 到 另外 一 个 页 面 。 大 量 的 这 些 链接 可 以 形成 类 似 网 络 的 图 ， 图 的 结构 非常 易于 
存储 、 追 踪 和 分 析 。 这 样 ， 马 尔 可 夫 链 就 为 如 何 芳 虑 网 络 抓 取 以 及 网 络 爬 虫 应 该 如 何 思 
打下 了 基础 。 


维基 百科 六 度 分 隔 : 终结 篇 

在 第 3 章 ， 我 们 创建 了 一 个 仆 虫 来 收集 从 一 个 维基 词 条 到 另 一 个 维基 词 条 的 链接 (从 凯 文 ， 
贝 肯 这 个 词 条 开始 ) ， 并 在 第 6 章 将 这 些 链 接 存储 在 数据 库 里 。 为 什么 这 里 又 把 这 个 游戏 
搬出 来 ? 因为 从 一 个 页 面 到 另 一 个 页 面 的 链接 路 径 选 择 问 题 ( 即 找 出 https://en.wikipedia. 
org/wiki/Kevin Bacon 和 https://en.wikipedia.org/wiki/Eric_Idle 之 间 的 链接 路 径 ) ， 与 选择 一 
个 马尔 可 夫 链 (一 个 单词 到 另 一 个 单词 的 路 径 ) 是 一 样 的 。 

































































这 类 问题 被 称 为 有 向 图 (directed graph) 问题 ， 其 中 A 一 B 连 通 ， 并 不 意味 着 B 一 人 
同样 连通 。 单 词 “football” 后 面 可 能 经 常 跟着 单词 “player”， 但 是 单词 “player” 后 
外 却 很 少 跟着 单词 “football*。 虽 然 凯 文 * 贝 肯 的 维基 词 条 链接 到 了 到 他 的 老家 费城 
(Philadelphia)， 但 是 费城 的 维基 百科 词 条 却 没 有 链接 回 凯 文 : 贝 骨 。 





























相反 ， 原 来 的 凯 文 * 贝 肯 六 度 分 隔 游 戏 是 一 个 无 向 图 (undirected graph) 问题 。 例 如 ， 凯 
文 . 贝 肯 和 朱 莉 娅 . 罗伯茨 (Julia Roberts) 共同 出 演 过 电影 《 别 净 阴 阳 界 》(Flatliners)， 




















注 3: 程序 在 处 理 文本 中 的 最 后 一 个 单词 的 下 一 个 节点 选择 时 可 能 会 发 生 异 常 ,因为 这 个 单词 后 面 没有 单词 。 
在 我 们 的 例子 中 ， 最 后 一 个 单词 是 点 号 (.)， 这 样 会 很 方便 ， 因 为 它 在 文本 中 一 共 出 现 了 215 次 ， 所 
以 选择 下 一 个 单词 时 不 会 出 现 问题 。 但 是 ， 在 现实 工作 中 ， 实 现 一 个 马尔 可 夫 生成 器 时 ， 文 本 的 最 后 
一 个 单词 通常 是 需要 慎重 考虑 的 。 
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因此 凯 文 * 贝 骨 词 条 会 《 别 问 阴阳 界 》 的 维基 词 条 链接 到 朱 莉 娅 * 罗伯茨 词 条 ， 而 朱 
莉 娅 罗伯茨 词 条 也 会 《 别 间 阴阳 界 》 的 维基 词 条 链接 到 凯 文 贝 骨 词 条 ， 两 者 的 关 
系 是 相互 的 (就 是 没有 “方向 性 ”)。 在 计算 机 科学 中 ， 无 向 图 问题 没有 有 向 图 问题 常见 ， 
两 者 都 属于 计算 难题 。 


虽然 解决 这 两 类 问题 和 对 应 的 多 个 分 支 问题 的 方法 有 很 多 ， 但 是 寻找 有 向 图 中 最 短路 径 
( 找 出 凯 文 ， 贝 肯 的 维基 百科 词 条 和 所 有 其 他 词 条 之 间 的 链接 路 径 ) 的 最 佳 且 最 常用 的 一 种 
方法 是 广度 优先 搜索 (breadth-first search ) 。 

广度 优先 搜索 算法 的 思路 是 优先 搜寻 直接 连接 到 起 始 页 的 所 有 链接 (而 不 是 找到 一 个 链接 
就 纵向 深入 搜索 )。 如 果 这 些 链 接 不 包含 目标 页 面 ( 你 想 要 找 的 词 条 )， 就 对 第 二 层 链 接 
(通过 一 个 中 间 页 面 链 接 到 起 始 页 ) 进行 搜索 。 这 个 过 程 不 断 重复 ， 直 到 达到 搜索 深度 限 
制 (本 例 中 使 用 的 层 数 限制 是 6 层 ) 或 者 找到 目标 页 面 为 止 。 


用 第 6 章 的 链接 数据 表 ， 实 现 一 个 完整 的 广度 优先 搜索 算法 ， 代 码 如 下 所 示 。 

































































import pymysql 


conn = pymysqL.connect(host='127.0.0.1' ，uUnix_socket=' /tmp/mysqL.sock ' ， 
User='', passwd='', db='mysql', charset='utf8') 

cur = conn.cursor() 

cur .execute( 'USE wikipedia') 


def getUrl(pageld): 
CUr .execute('SELECT url FROM pages WHERE id = %s', (int(pagelId))) 


return cur.fetchone()[0] 


de 


下 


getLinks(fromPageId ) : 

CUr .exeCcute('SELECT toPageId FROM links WHERE frompPageId = %s ' ， 
(int(frompageld))) 

if cur.rowcount == 0: 
return [] 

return [x[0] for x in cur.fetchall()] 


de 


下 


searchBreadth(targetPageId，paths=[[1]]): 
newPaths = [] 
for path in paths : 
Links = getLinks(path[-1]) 
for Link in Links : 
if Link == targetPageId: 
return path + [Link] 
else: 
newPaths.append(path+[Link]) 
return searchBreadth(targetPageId，newPaths) 


nodes = getLinks(1) 

targetPageId = 28624 

pageIds = searchBreadth(targetPageId) 

for pageId in pageIds: 
print(getUrL(pageId)) 
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这 里 函数 geturl 是 辅助 函数 ， 用 来 通过 给 定 的 页 面 ID 从 数据 库 获 取 URL 链接 。 类 似 地 ， 
getLinks 以 fromPageId (表示 当前 页 面 的 整数 ID) 为 输入 参数 ， 获 取 该 页 面 链接 到 的 所 有 
































页 面 的 整数 ID 列表 。 




















主 函数 searchBreadth 会 递归 地 从 搜索 页 面 开 始 构建 所 有 可 能 的 路 径 列 表 ， 并 在 找到 一 个 


已 到 达 目 标 页 面 的 路 径 时 停止 。 





它 从 单个 路 径 [1] 开始 。 用 户 停 留 在 了 D 为 1 的 目标 页 面 (Kevin Bacon)， 并 且 没 有 进 








一 步 的 链接 了 。 
。 对 于 路 径 列表 中 的 每 一 条 路 径 (对 于 第 一 次 循环 ， 

















只 有 一 条 路 径 ， 因 此 这 一 步 很 简短 )， 

















它 会 获取 所 有 从 该 页 面 (表示 为 路 径 中 的 最 后 一 个 页 面 ) 链 出 的 链接 。 
。 对 于 每 个 链 出 的 链接 ， 它 都 会 检查 其 是 否 与 targetPageId 匹配 。 如 果 匹 配 上 了 ， 则 返 





回 该 路 径 。 

















如 果 没 有 匹配 ， 那 么 会 将 一 条 新 的 路 径 添 加 进 新 的 路 径 列 表 (现在 变 长 了 )， 该 新 的 路 


径 列 表 由 旧 路 径 和 新 的 链 出 路 径 组 成 。 























如 果 在 当前 层级 没有 找到 targetPageId， 那 么 程序 就 会 用 targetPageId 和 新 的 更 长 的 


路 径 列 表 ， 递 归 调 用 searchBreadth。 





























找到 页 面 ID 列表 (包含 两 个 页 面 之 间 的 路 径 ) 后 ， 每 个 ID 会 对 应 到 其 实际 的 URL 链接 





并 打印 出 来 。 


下 面 是 凯 文 * 贝 骨 词 条 (在 数据 库 中 页 面 ID 为 1) 和 埃 里 克 ' 艾 德 尔 词 条 (在 数据 库 中 页 











面 ID 为 28624) 的 链接 路 径 : 











/wiki/Kevin_Bacon 


/wiki/Primetime_ Emmy_Award_for_Outstanding_ Lead Actor_in a_ 


Miniseries_or_a_Movie 
/wiki/Gary_Gilmore 
/wiki/Eric Idle 


链接 之 间 的 关系 是 : Kevin Bacon 一 Primetime Emmy Award 一 Gary Gilmore 一 Eric Idle。 











除了 解决 “六 度 分 隔 ” 问 题 以 及 对 句子 中 一 个 单词 后 





下 跟着 哪个 单词 进行 建 模 ， 有 向 图 和 


无 向 图 还 可 用 于 对 网 页 抓 取 中 的 许多 场景 进行 建 模 。 例 如 ， 哪 个 网 站 链接 到 了 哪个 网 站 ? 
哪 篇 学 术 论文 引用 了 其 他 的 学 术 论文 ? 零售 网 站 上 哪些 产品 往往 一 并 展示 ? 这 个 链接 的 强 








度 是 什么 ?这 个 链接 是 双向 链接 吗 ? 








了 解 这 些 基 本 的 关系 类 型 对 建 模 、 可 视 化 以 及 基于 抓 取 数据 进行 预测 都 非常 有 用 。 


9.3 自然 语言 工具 包 





到 目前 为 止 ， 本 章 主要 讨论 了 对 文本 中 单词 的 统计 分 析 。 哪 些 单词 使 用 得 最 频繁 ? 哪些 单 
词 用 得 少 ? 一 个 单词 后 面 可 能 跟着 哪 几 个 单词 ? 这 些 单 词 是 如 何 组 合 在 一 起 的 ? 我 们 还 没 
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有 理解 每 个 单词 的 具体 含义 。 





自然 语言 工具 包 (Natural Language Toolkit，NLTK) 是 一 个 Python 库 ， 用 于 识别 和 标记 英 
语文 本 中 单词 的 词性 。 这 个 项 目 于 2000 年 创建 ， 在 过 去 的 十 多 年 里 ， 由 来 自 世界 各 地 的 
几 十 个 开发 者 共同 努力 维护 。 虽 然 它 的 功能 非常 丰富 (有 儿 本 书 专门 介绍 了 NLIK) ， 但 本 
节 只 介绍 它 的 几 种 用 法 。 


9.3.1 安装 与 设置 

nltk 模块 的 安装 方法 和 其 他 Python 模块 一 样 ， 要 么 从 NLTK 网 站 直接 下 载 安装 包 进 行 安 
装 ， 要 么 用 第 三 方 安装 程序 通过 关键 词 “nltk” 搜 索 安 装 。 详 细 的 安装 教程 ， 请 参考 NLTK 
网 站 。 





模块 安装 之 后 ， 可 以 下 载 NLTK 自 带 的 文本 库 ， 这 样 你 就 可 以 非常 轻松 地 试用 NLTK 的 功 
能 。 在 Python 命令 行 中 输入 下 面 的 命令 即 可 : 


>>> import nltk 
>>> nltk.download() 


这 两 行 命令 会 打开 NLTK 的 下 载 器 ( 见 图 9-2)。 








es NLTK Downloader 


Status 


All packages installed 
all-corpora All the corpora installed 
book Everything used in the NLTK Book installed 








| Download | | Refresh | 


Server Index: |http://nltk.github. com nltk_ data/ 





Download Directory: [Users/ryan nltk data | 














图 9-2: NLTK 下 载 器 可 以 让 你 浏览 和 下 载 nttk 模块 的 包 和 文本 库 
建议 你 在 刚 开 始 试 用 NLTK 语料库 时 安装 所 有 可 用 的 包 。 你 随时 可 以 轻松 印 载 这 些 包 。 
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9.3.2 ”用 NLTK 做 统计 分 析 


NLTK 很 擅长 生成 统计 信息 ， 包 括 对 一 段 文字 的 单词 数量 、 单 词 频 率 和 单词 词性 进行 统计 。 














如 果 你 只 需要 做 一 些 非常 简单 的 计算 (比如 计算 一 段 文 字 中 不 重复 的 单词 的 数量 




















)， 导 入 


nttk 模块 就 太 大 材 小 用 了 一 一 它 是 一 个 非常 大 的 模块 。 但 是 ， 如 果 你 需要 对 文本 做 更 复杂 





的 分 析 ， 那 么 里 面 有 许多 函数 可 以 帮 你 实现 任何 统计 指标 。 





用 NLTK 做 统计 分 析 一 般 是 从 Text 对 象 开始 的 。Text 对 象 可 以 通过 下 面 的 方法 月 
Python 字符 串 来 创建 : 





from nltk import word_tokenize 
from nltk import Text 


tokens = word_tokenize('Here is some not very interesting text') 
text = Text(tokens) 








word_tokenize 国 数 的 参数 可 以 是 任何 Python 文本 字符 串 。 如 果 你 手边 没有 任何 长 
但 是 还 想 尝 试 一 些 功 能 ，NLTK 库 里 内 置 了 儿 本 书 ， 可 以 用 import 国 数 导 人 : 








from nltk.book import * 


样 会 加 载 9 本 书 : 





[Ee 


**x Introductory Examples for the NLTK Book *** 
Loading text1, ..., text9 and sent1i, ..., sent9 
Type the name of the text or sentence to view it. 
Type: 'texts()' or 'sents()' to list the materials. 
text1: Moby Dick by Herman Melville 1851 

text2: Sense and Sensibility by Jane Austen 1811 
text3: The Book of Genesis 

text4: Inaugural Address Corpus 

text5: Chat Corpus 

text6: Monty Python and the Holy Grail 

text7: Wall Street Journal 

text8: Personals Corpus 

text9: The Man Who Was Thursday by G . K . Chesterton 1908 





简单 的 


字符 串 ， 





在 后 面 的 例子 ， 我 们 都 用 text6, “Monty Python and the Holy Grail” (一 部 1975 年 的 电影 


的 剧本 )。 


文本 对 象 可 以 像 普通 的 Python 数组 那样 操作 ， 就 好 像 它 们 是 一 个 包含 文本 里 所 有 单词 的 数 





组 。 利 用 这 个 属性 ， 你 可 以 统计 文本 中 不 重复 的 单词 ， 然 后 与 总 单词 数 进行 比较 
Python 的 set 只 保留 唯一 的 值 吧 ) : 











>>> Len(text6)/Len(set(text6)) 
7.833333333333333 








(还 记得 


前 面 的 数据 表明 剧本 中 每 个 单词 平均 被 使 用 了 8 次 。 你 还 可 以 将 文本 对 象 放 到 一 个 频率 分 
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布 对 象 FreqDist 中 ， 查 看 哪些 单词 是 最 常用 的 ， 以 及 各 个 单词 的 频率 是 多 少 。 


>>> from nltk import FreqDist 

>>> fdist = FreqDist(text6) 

>>> fdist.most_common(10) 

[(':', 1197), ('.', 816), ('!', 801), (',', 731), ("'", 421), ('[', 3 
19), (']', 312), ('the', 299), ('I', 255), ('ARTHUR', 225)] 

>>> fdist["Grail"] 

34 


因为 这 是 一 个 剧本 ， 所 以 剧本 中 创作 的 一 些 角色 会 显示 出 来 。 例 如 ， 





全 部 大 写 的 








“ARTHUR” 频 繁 地 出 现 ， 因 为 它 会 出 现在 亚瑟王 (King Arthur) 每 一 句 台词 的 前 面 。 另 


























外 ,分 号 (:) 也 出 现在 每 一 行 的 开头 ， 作 为 分 隔 符 把 人 物 的 姓名 和 人 物 的 台词 分 开 。 根 据 





这 个 特征 ， 我 们 可 以 看 到 这 个 电影 剧本 一 共有 1197 句 台词 ! 








前 几 章 中 用 过 的 2-gram 模型 ， 在 NLTK 中 称 作 bigrams (你 可 能 会 听 到 有 人 把 3-gram 模型 
叫 作 “trigrams”， 我 个 人 更 喜欢 用 2-gram 和 3-gram 而 不 是 bigrams 或 trigrams)。 你 可 以 











用 NLTK 非常 轻松 地 创建 、 搜 索 和 列 出 2-gram ; 


>>> from nltk import bigrams 

>>> bigrams = bigrams(text6) 

>>> bigramsDist = FreqDist(bigrams) 
>>> bigramsDist[('Sir', 'Robin')] 
18 


为 了 搜索 2-gram 序列 “Sir Robin”， 我 们 需要 把 它 分 解 成 一 个 元 组 ("Sir"，"Robin")， 用 


来 匹配 这 个 2-gram 序列 在 频率 分 布 中 的 表现 方式 。 还 有 一 个 trigrams 模块 ， 
式 完 全 相同 。 对 于 一 般 的 情形 ， 你 还 可 以 导入 ngrams 模块 : 





>>> from nltk import ngrams 

>>> fourgrams = ngrams(text6, 4) 

>>> fourgramsDist = FreqDist(fourgrams) 

>>> fourgramsDist[('father', 'smelt', 'of', 'elderberries')] 
1 


它 的 工作 方 


ngrams 畏 数 被 用 来 把 文本 对 象 分 解 成 任意 规模 的 n-gram 序列 ， 第 二 个 参数 决定 了 规模 的 
大 小 。 在 这 个 例子 中 ， 我 把 文本 分 解 成 了 4-gram。 然 后 ， 我 就 可 以 查 出 “father smelt of 





elderberries” 这 个 短语 在 剧本 中 只 出 现 了 一 次 。 





频率 分 布 、 文 本 对 象 和 n-gram 还 可 以 整合 到 一 个 循环 中 进行 迭代 。 例 如 ， 下 





下 的 程序 会 打 








印 出 文本 中 所 有 以 “coconut” 开 头 的 4-gram 序列 : 


from nltk.book import * 
from nltk import ngrams 
fourgrams = ngrams(text6, 4) 
for fourgram in fourgrams: 
if fourgram[0] == 'coconut': 
print(fourgram) 
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NLTK 库 中 有 许多 不 同 的 工具 和 对 象 ， 用 于 对 大 段 文字 进行 组 织 、 统 计 、 排 序 和 度量 。 尽 
管 我 们 只 是 了 解 了 NLTK 函数 用 法 的 皮毛 ， 但 是 大 多 数 工具 都 设计 得 非常 好 ， 熟 悉 Python 
的 人 很 容易 操作 它们 。 








9.3.3 ”用 NLTK 做 词性 分 析 
到 现在 为 止 ， 我 们 只 是 基于 拼写 方式 对 比 和 分 类 遇 到 的 所 有 单词 ， 并 没有 区 分 同形 同音 异 
义 词 或 语 境 。 














虽然 有 人 可 能 会 认为 同形 同音 异 义 词 不 处 理 也 基本 没什么 问题 ， 但 是 如 果 你 看 到 了 它们 的 
使 用 频率 ， 可 能 会 吓 一 跳 。 大 多 数 以 英语 为 母语 的 人 往往 不 会 注意 到 一 个 单词 是 同形 同音 
异 义 词 ， 也 不 认为 同一 个 词 在 不 同 的 语 境 中 会 导致 意思 混乱 。 




















“He was objective in achieving his objective of writing an objective philosophy, primarily using 
verbs in the objective case”( 在 实现 写作 一 本 客观 哲学 书 的 目标 时 ， 他 是 客观 的 ， 因 为 他 在 
描述 客观 情况 时 主要 使 用 动词 ) 这 句 话 很 容易 被 人 类 理解 ， 但 是 网 络 爬 虫 可 能 会 认为 同一 
个 单词 (objective) 被 用 了 4 次 ， 进 而 简单 地 忽略 这 4 个 单词 各 自 的 含义 。 











除了 理 清 词性 ， 区 分 出 一 个 单词 的 用 法 也 有 帮助 。 例 如， 你 可 能 需要 查找 一 些 由 普通 英文 
单词 组 成 的 公司 名 称 ， 或 者 分 析 某 个 人 对 一 个 公司 的 评价 。“ACME Products is good” 和 
“ACME Products is not bad” 意 思 是 一 样 的 ， 即 使 一 句 话 里 用 的 是 “good”， 而 另 一 句 话 用 
的 是 “bad”。 











Penn Treebank 语义 标记 


NLTK 默认 使 用 的 是 由 美国 宾夕法尼亚 大 学 大 学 Penn Treebank 项 目 开发 的 一 个 流行 
的 词性 标注 系统 。 虽 然 有 些 标记 意思 明确 (比如 ，CC 就 是 并 列 连接 词 ，coordinating 
conjunction) ， 有 些 标记 却 比 较 模糊 (比如 ，RP 是 小 品 词 ，particle) 。 下 面 是 语义 标记 
的 对 照 表 。 


缩写 ”全称 

CC 并 列 连接 词 (coordinating conjunction) 

CD 基数 (cardinal number) 

DT 限定 词 (determiner) 

EX 表示 存在 性 的 “there” (existential “there”) 
FW 外 来 语 (foreign word) 











IN 介词 ， 从 属 连词 (preposition, subordinating conjunction ) 
可 形容 词 (adjective) 
JJR. 形容 词 ， 比 较 级 (adjective, comparative ) 
JJS 形容 词 ， 最 高 级 (adjective, superlative ) 
LS 列表 项 标记 符 (list item marker) 
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MD 
NN 
NNS 
NNP 
NNPS 
PDT 
POS 
PRP 
PRPS$ 
RB 
RBR 
RBS 
RP 
SYM 
TO 
UH 
VB 
VBD 
VBG 
VBN 
VBP 
VBZ 
WDT 
WP 
WPS$ 
WRB 





情态 动词 (modal) 

名 词 ， 单 数 或 不 可 数 (noun, singular or mass) 

名 词 ， 复 数 (noun, plural) 

专 有 名 词 ， 单 数 (proper noun, singular) 

专 有 名 词 ， 复 数 (proper noun, plural) 

前 置 限定 词 (predeterminer) 

名 词 所 有 格 s 结尾 (possessive ending) 

人 称 代词 (personal pronoun) 

物 主 代词 (possessive pronoun) 

副词 (adverb) 

副词 ， 比 较 级 (adverb, comparative) 

副词 ， 最 高 级 (adverb, superlative) 

小 品 词 (particle) 

符号 (symbol) 

介词 “to”(“to”) 

感叹 词 (interjection) 

动词 ， 一 般 形 式 (verb, base form ) 

动词 ， 过 去 时 (verb, past tense) 

动词 ， 动 名 词 或 现在 分 词 (verb, gerund or present participle ) 
动词 ， 过 去 分 词 (verb, past participle ) 

动词 ， 非 第 三 人 称 单数 (verb, non-third person singular present) 
动词 ， 第 三 人 称 单数 (verb, third person singular present) 
Wh- 限定 词 (wh-determiner) 

Wh- 代词 (wh-pronoun) 

Wh- 物 主 代词 (possessive wh-pronoun) 

Wh- 副词 (wh-adverb) 











除了 度量 语言 ，NLTK 还 可 以 基于 语 境 和 它 的 超级 大 字典 分 析 文本 内 容 ， 
词 的 含义 。NLTK 的 一 个 基本 功能 是 识别 句子 中 各 个 单词 的 词性 : 


>>> 
>>> 


[('Strange', 'NNP'), ('women', 'NNS'), ('lying', 'VBG'), ('in', 





from nltk.book import * 
from nltk import word_tokenize 


帮助 人 们 寻找 单 


text = word_tokenize('Strange women lying in ponds distributing swords'\ 


no basis for a system of government.') 
from nltk import pos_tag 
pos_tag(text) 


'IN') 


,，('ponds', 'NNS'), ('distributing', 'VBG'), ('swords', 'NNS'), ('is' 
，'VBZ'), ('no', 'DT'), ('basis', 'NN'), ('for', 'IN'), ('a'’, 'DT' 
('system', 'NN'), ('of', 'IN'), ('government', 'NN'), ('.', '.')] 


)， 





每 个 单词 被 放 在 一 个 元 组 中 ， 一 边 是 单词 ， 一 边 是 NLTK 的 词性 标记 (每 个 词性 标记 的 具 
请 参考 前 面 的 Penn Treebank 标记 表 )。 虽 然 这 看 起 来 是 非常 简单 的 查询 ， 但 是 要 


体 含义 ， 























自然 
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正确 地 完成 这 项 任务 其 实 很 复杂 ， 下 面 的 例子 明显 体现 出 了 这 一 点 。 


>>> text = word_tokenize('The dust was thick so he had to dust') 

>>> pos_tag(text) 

[C'The'’, 'DT'), ('dust', 'NN'), ('was', 'VBD'), ('thick', 'JJ'), ('so 

', 'RB'), ('he', 'PRP'), ('had'’, 'VBD'), ('to', 'TO'), ('dust', 'VB')] 
需要 注意 的 是 ，“dust” 在 这 句 话 里 出 现 了 两 次 : 一 次 是 名 词 ， 而 另 一 次 是 动词 。NLTK 
可 以 基于 句子 的 内 容 正 确 地 识别 出 相应 的 用 法 。NLTK 用 英语 的 上 下 文 无 关 文法 (context- 
free grammar) 识别 词性 。 上 下 文 无 关 文 法 基本 上 可 以 看 成 一 个 规则 集合 ， 用 一 个 有 序 的 
列表 确定 一 个 词 后 面 可 以 跟 哪 些 词 。NLTK 的 上 下 文 无 关 文法 定义 的 是 一 个 词性 后 面 可 以 
跟 哪些 词性 。 无 论 什 么 时 候 ， 只 要 遇 到 像 “dust” 这 样 一 个 含义 不 明确 的 单词 ，NLTK 都 
会 用 上 下 文 无 关 文 法 的 规则 来 判断 ， 然 后 确定 一 个 合适 的 词性 。 




















机 器 学 习 和 机 器 训练 
你 也 可 以 对 NLTK 进行 训练 ， 使 它 针 对 一 门 外 语 创建 出 一 个 全 新 的 上 下 文 无 关 文 法 规 
则 。 如 果 你 用 Penn Treebank 词性 标记 ， 手 工 对 该 语言 的 若干 大 段 文本 做 了 语义 标记 ， 
那么 你 就 可 以 把 结果 传 给 NLTK， 然 后 训练 它 对 其 他 文本 进行 语义 标记 。 在 任何 一 个 
机 器 学 习 场 景 中 ， 机 器 训练 都 是 不 可 或 缺 的 一 部 分 ， 我 们 在 第 13 章 训练 已 虫 识别 验证 
码 (CAPTCHA) 时 会 再 做 介绍 。 











那么 ， 知 道 某 段 文 字 中 一 个 词 是 动词 还 是 名 词 有 什么 用 呢 ? 这 对 于 在 计算 机 科学 研究 室 里 
做 研究 可 能 有 用 ， 但 是 它 对 网 页 抓 取 有 什么 用 呢 ? 


在 网 页 抓 取 中 经 常 需要 处 理 搜索 的 问题 。 你 在 抓 取 了 一 个 网 站 的 文字 之 后 ， 可 能 想 从 文 
字 里 面 搜索 “google” 这 个 词 ， 但 你 要 的 是 作为 动词 的 google， 而 不 要 作为 专 有 名 词 的 
Google。 或 者 你 就 想 查找 Google 公司 的 名 称 Google， 但 是 不 想 通过 首 字母 大 写 来 找 出 答 
案 (人 们 可 能 忘记 将 首 字 母 大 写 ， 直 接 写 成 了 google)。 这 时 函数 pos_tag 就 很 管用 了 : 





























from nltk import word_tokenize，sent_tokenize，pos_tag 

sentences = sent_tokenize('Google is one of the best companies in the world.'\ 
' I constantly google myself to see what I\'m up to.') 

nouns = ['NN', 'NNS', 'NNP', 'NNPS'] 


for sentence in sentences: 
if 'google' in sentence.lower(): 
taggedWords = pos_tag(word_tokenize(sentence)) 
for word in taggedWords: 
if word[0].Lower() == 'google' and word[1] in nouns: 
print(sentence) 





这 上段 代码 只 会 打印 包含 名 词 (而 非 动 词 )“google” 或 “Google” 的 句子 。 当 然 ， 你 也 可 以 
明确 地 要 求 只 打印 标记 为 “NNP”( 专 有 名 词 ) 的 “Google”， 但 是 NLTK 有 时 也 会 判断 错 
误 ， 所 以 最 好 还 是 根据 情况 给 自己 留 一 些 回旋 的 余地 。 














A 
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自然 语言 中 的 许多 歧义 问题 都 可 以 用 NLTK 的 pos_tag 函数 解决 。 不 只 是 搜索 目标 单词 或 
短语 ， 而 是 搜索 带 标记 的 目标 单词 或 短语 ， 这 样 可 以 大 大 提高 爬虫 搜索 的 准确 率 和 有 效 性 。 


9.4 其 他 资源 


利用 机 器 处 理 、 分 析 和 理解 自然 语言 是 计算 机 科学 中 最 难 的 任务 之 一 ， 关 于 这 个 主题 已 有 
数 不 清 的 专著 和 学 术 论 文 。 希 望 本 章 内 容 可 以 让 你 将 思路 扩展 至 传统 的 网 页 抓 取 之 外 ， 至 
少 在 从 事 需 要 进行 自然 语言 分 析 的 项 目 时 ， 清 楚 应 该 从 哪儿 下 手 。 


























we 

















关于 自然 语言 处 理 和 Python 的 NLTK 有 许多 非常 优秀 的 学 习 资 源 。 尤 其 是 Steven Bird、 
Ewan Klein 和 Edward Loper 合 著 的 Natural Language Processing with Python 对 这 个 主题 进 
行 了 全 面 的 基础 性 介绍 。 














另外 ，James Pustejovsky 和 Amber Stubbs 合 苦 的 Natural Language Annotation for Machine 
Learning 为 自然 语言 处 理 提 供 了 更 高 级 的 理论 指导 。 学 习 该 书 需要 有 Python 基础 ， 书 中 介 
绍 的 主题 都 可 以 用 Python 的 NLTK 完美 地 实现 。 
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第 10 章 


穿越 网 页 表单 与 登录 窗口 进行 抓 取 





擎 握 了 网 页 抓 取 的 基础 知识 之 后 ， 你 首先 遇 到 的 一 个 问题 是 :“ 我 怎么 获取 登录 窗口 背后 的 
信息 呢 ? ”如 今 ，Web 正在 朝 着 页 面 交 互 、 社 交 媒 体 、 用 户 生 成 内 容 的 趋势 不 断 地 演进 。 
表单 和 登录 窗口 是 许多 网 站 中 不 可 或 缺 的 组 成 部 分 。 不 过 ， 它 们 还 是 比较 容易 处 理 的 。 


到 目前 为 止 ， 本 书 示例 中 的 网 络 康 虫 在 和 Web 服务 器 进行 数据 交互 时 ， 基 本 都 是 用 HTTP 
协议 的 GET 方法 去 请 求 信息 。 这 一 章 ， 我 们 将 重点 介绍 P05T 方法 ， 即 把 信息 推送 到 Web 
服务 器 进行 存储 和 分 析 。 


表单 基本 上 可 以 看 成 一 种 用 户 提交 PosT 请 求 的 方式 ， 且 这 种 请 求 方式 是 Web 服务 器 能 够 
里 解 和 使 用 的 。 就 像 网 站 的 链接 标记 可 以 帮助 用 户 发 出 GET 请 求 一 样 ，HTML 表单 可 以 帮 
助 用 户 发 出 posT 请 求 。 当 然 ， 我 们 也 可 以 写 一 点 儿 代码 来 自己 创建 这 些 请 求 ， 然 后 通过 网 
络 疏 虫 把 它们 提交 给 服务 器 。 





























所 














10.1 Python Requests 库 


虽然 用 Python 的 标准 库 就 可 以 应 对 网 页 表单 ， 但 是 有 时 用 一 点 儿 语 法 糖 可 以 让 生活 更 甜 
密 。 当 你 想 做 的 不 只 是 用 urttlib 库 实现 基本 的 GET 请 求 时 ， 可 以 看 看 Python 标准 库 之 外 
的 第 三 方 库 。 


Requests 库 就 是 一 个 擅长 处 理 复杂 的 HITP 请 求 、cookie、header 〈 响 应 头 和 请 求 头 ) 等 
内 容 的 Python 第 三 方 库 。 下 面 是 Requests 的 创建 者 Kenneth Reitz 对 Python 标准 库 工 具 的 
评价 : 
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Python 的 标准 库 urtlib2 为 你 提供 了 大 多 数 HTTP 功能 ， 但 是 它 的 API 非 常 差 
劲 。 它 是 为 当时 的 Web 创建 的 。 即 便 是 为 了 完成 最 简单 的 任务 ， 它 也 需要 大 量 
的 工作 (甚至 要 重 写 整个 方法 )。 

事情 不 应 该 这 样 复杂 ， 在 Python 里 更 不 应 该 如 此 。 


和 任何 Python 第 三 方 库 一 样 ，Requests 库 也 可 以 用 其 他 第 三 方 Python 库 管 理 器 (比如 pip) 
安装 ， 或 者 直接 下 载 源 代码 安装 。 


10.2 提交 一 个 基本 表单 


大 多 数 网 页 表单 都 是 由 一 些 HTML 字段 、 一 个 提交 按钮 和 一 个 进行 表单 处 理 的 操作 页 面 构 
成 的 。 虽 然 这 些 HTML 字段 通常 由 文字 内 容 构成 ， 但 是 也 可 以 实现 文件 上 传 或 包含 其 他 非 
文字 内 容 。 

因为 大 多 数 主流 网 站 都 会 在 它们 的 robots.txt 文件 里 广 明 禁止 慌 虫 接 人 登录 表单 (第 18 章 
介绍 了 抓 取 这 类 表单 的 相关 法 律 责任 )， 所 以 为 了 安全 起 见 ， 我 在 pythonscraping.com 网 
站 里 构建 了 一 组 不 同类 型 的 表单 和 登录 窗口 ， 以 便 你 用 网 络 聆 虫 抓 取 。 最 简单 的 表单 位 于 
http://pythonscraping.com/pages/files/form.html。 




















这 个 表单 的 源 代码 是 : 


<form method="post" action="processing.php"> 

First name: <input type="text" name="firstname"><br> 
Last name: <input type="text" name="lastname"><br> 
<input type="submit" value="Submit"> 

</form> 


这 里 有 几 点 需要 注意 一 下 。 首 先 ， 两 个 输入 字段 的 名 称 是 firstname 和 Lastnane， 这 一 点 
非常 重要 。 这 两 个 字段 的 名 称 决 定 了 表单 提交 后 要 被 P05T 到 服务 器 上 的 可 变 参 数 的 名 称 。 
如 有 果 你 想 模拟 表单 提交 数据 的 行为 ， 就 要 保证 你 的 变量 名 称 与 字段 名 称 是 一 一 对 应 的 。 








其 次 ， 表 单 的 操作 发 生 在 processing.php (绝对 路 径 是 http://pythonscraping.com/files/processing. 
php)。 对 表单 的 任何 PoST 请 求 其 实 都 发 生 在 这 个 页 面 上 ， 而 非 表 单 本 身 所 在 的 页 面 。 切 
记 : HTML 表单 的 目的 ， 只 是 帮助 网 站 的 访问 者 将 格式 正确 的 请 求 发 送 到 进行 实际 操作 的 
页 面 。 除 非 你 要 对 请 求 的 格式 进行 研究 ， 否 则 不 需要 花 太 多 时 间 在 表单 所 在 的 页 面 上 。 


用 Requests 库 提 交 表 单 只 需 4 行 代码 ， 包 括 导 入 库 文 件 的 语句 和 打印 内 容 的 指令 (是 的 ， 


就 是 这 么 简单 ) : 


























import requests 


params = {'firstname': 'Ryan', 'lastname': 'Mitchell'} 
r = requests.post("http://pythonscraping.com/pages/processing.php", data=params) 
print(r.text) 








穿越 网 页 





xi 
| 
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表单 被 提交 之 后 ， 程 序 应 该 会 返回 页 面 的 内 容 : 








Hello there，Ryan Mitchell! 











个 程序 还 可 以 用 于 许多 网 站 的 简单 表单 。 比 如 OReilly Media 新 闻 订 阅 页 面 的 表单 源 代 
a 














<form action="http://post.oreilly.com/client/o/oreilly/forms/ 
quicksignup.cgi" id="example form2" method="POST"> 
<input name="client_token" type="hidden" value="oreilly" /> 
<input name="subscribe" type="hidden" value="optin" /> 
<input name="success_url" type="hidden" value="http://oreilly.com/store/ 
newsletter-thankyou.html" /> 
<input name="error_uyrl" type="hidden" value="http://oreilly.com/store/ 
newsletter-signup-error.html" /> 
<input name="topic_or_dod" type="hidden" value="1" /> 
<input name="source" type="hidden" value="orm-home-t1-dotd" /> 
<fieldset> 
<input class="email_address long" maxlength="200" name= 
"email_addr" size="25" type="text" value= 
"Enter your email here" /> 
<button alt="Join" class="skinny" name="submit" onclick= 
"return addClickTracking('orm','ebook','rightrail','dod' 
);" value="suybmit">Join</button> 
</fieldset> 
</form> 


虽然 乍 看 会 觉得 您 怖 ， 但 是 大 多 数 情况 下 (后面 会 介绍 异常 ) 你 只 需要 关注 两 件 事 : 


。 你 想 提 交 数 据 的 字段 的 名 称 (在 这 个 例子 中 是 email_addr) 
。 表单 的 action 属性 ， 也 就 是 表单 提交 后 网 站 会 显示 的 页 面 (在 这 个 例子 中 是 http://post. 


oreilly.com/client/o/oreilly/forms/quicksignup.cgi) 





机 























添加 所 需 信 已 ， 息 ， TS 然后 运行 代码 即 可 : 


import requests 

params = {'email_addr': 'ryan.e.mitchell@gmail.com'} 

r = requests.post("http://post.oreilly.com/client/o/oreilly/forms/quicksignup.cgi", 
data=params) 

print(r.text) 


在 这 个 示例 中 ， 你 真正 加 入 O’Reilly 的 邮件 列表 之 前 ， 还 要 填写 另 一 个 表单 ， 同 样 的 概念 
也 适用 于 该 表单 。 不 过 ， 如 果 你 自己 在 家 做 ， 希望 你 慎 用 这 些 知 识 ， 不 要 给 O’Reilly 出 版 
社 提交 很 多 无 效 的 注册 。 


10.3 单 选 按 钮 、 复 选 框 和 其 他 输入 


显然 ， 并 非 所 有 的 网 页 表单 都 只 是 一 堆 文 本 字段 和 一 个 提交 按钮 。HTML 标准 里 提供 了 大 
量 可 用 的 表单 输入 字段 : 单 选 按钮 、 复 选 框 和 下 拉 选 框 等 。HTMLS5 还 增加 了 其 他 的 控件 
比如 滚动 条 (范围 输入 字段 )、 邮 箱 、 日 期 等 。 自 定义 的 JavaScript 字段 可 谓 无 所 不 能 ， 可 
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以 实现 取 色 器 (colorpicker)、 日 历 以 及 开发 者 能 想到 的 任何 功能 。 


无 论 表单 的 字段 看 起 来 多 么 复杂 ， 仍 然 只 有 两 件 事 是 需要 关注 的 ， 字段 名 称 和 字段 值 。 字 
段 名 称 可 以 通过 查看 源 代码 并 寻找 name 属性 轻易 获得 。 而 字段 的 值 有 时 会 比较 复杂 ， 因 为 
它 有 可 能 是 在 表单 提交 之 前 通过 JavaScript 生成 的 。 取 色 器 就 是 一 个 比较 奇怪 的 表单 字段 ， 
它 可 能 会 用 类 似 #F93939 这 样 的 值 。 




















如 果 你 不 确定 输入 字段 值 的 数据 格式 ， 有 一 些 工 具 可 以 跟踪 浏览 器 和 网 站 之 间 来 回 发 送 
的 GET 和 POST 请 求 。 前 面 提 过 ， 跟 踪 GET 请 求 最 显而易见 的 方式 就 是 看 网 站 的 URL 链接 。 
如 果 URL 链接 像 这 样 : 

http://domainname.com?thing1=foo&thing2=bar 
那么 你 就 知道 这 个 请 求 对 应 下 面 这 种 表单 : 


<form method="GET" action="someProcessor.php"> 

<input type="someCrazyInputType" name="thing1" value="foo" /> 
<input type="anotherCrazyInputType" name="thing2" value="bar" /> 
<input type="submit" valuye="Submit" /> 

</form> 


对 应 的 Python 参数 是 : 
{'thing1i':'foo', 'thing2':'bar'} 


如 果 你 遇 到 了 一 个 看 起 来 很 复杂 的 PoST 表单 ， 并 且 想 查看 浏览 器 向 服务 器 传递 了 哪些 参 
数 ， 最 简单 的 方法 就 是 用 浏览 器 的 检查 器 (inspector) 或 开发 者 工具 查看 ， 如 图 10-1 所 示 。 


让 





























€ CG 省 | [Dlocalhost:8888/someProcessor.php 





foo bar | Submit | 





Q DD Elements |Network| Sources Timeline Profiles Resources Audits Console EditThisCookie 
外 YO 字 污 DOPreserve log ODisable cache 





Name | x 
Path | Headers | Preview Response Timing 
a someProcessor.php Remote Address: [::1]:8888 
= Request URL: http://localhost:8888/someProcessor.php 


Request Method: POST 
Status Code: ®@ 208 OK 


了 Form Data View source view URL encoded 
thing1: foo 
thing2: bar 


v Response Headers View source 
Connection: Keep-Alive 
Content-Length: 223 
Content-TvDe: text/html 


图 10-1， 方 框 高 亮 的 Form Data 部 分 显示 了 P0ST 请 求 参数 “thing1” 和 “thing2”， 以 及 对 应 的 值 
“foo” 和 “bar” 
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Chrome 浏览 器 的 开发 者 工具 可 以 在 菜单 中 通过 “更 多 工具 ”一 “开发 者 工具 ”打开 ( 快 
捷 键 F12)。 它 提供 了 浏览 器 与 网 站 交互 时 产生 的 所 有 请 求 ， 是 一 种 详细 查看 请 求 参数 的 好 
方法 。 


10.4 ”提交 文件 和 图 像 


虽然 文件 上 传 在 网 络 上 很 普遍 ， 但 是 在 网 页 抓 取 中 却 不 太 常 用 。 但 是 ， 如 果 你 想 为 自己 网 
站 的 文件 上 传 功能 写 一 个 测试 实例 ， 也 是 可 以 实现 的 。 不 管 怎 么 说 ， 掌 握 工 作 原 理 总 是 有 
用 的 。 


http://pythonscraping.com/files/form2.html 上 有 一 个 文件 上 传 表 单 。 页 面 上 表单 的 源 代码 如 
下 所 示 : 















































<form action="processing2.php" method="post" enctype="multipart/form-data"> 
Submit a jpg, png, or gif: <input type="file" name="uploadFile"><br> 
<input type="submit" value="Upload File"> 

</form> 





除了 <input> 标签 里 有 一 个 type 属性 是 file， 文 件 上 传 表单 看 起 来 和 前 面 例子 中 的 基于 文本 
的 表单 没什么 两 样 。 其 实 ，Python Requests 库 对 这 种 表单 的 处 理 方式 也 和 之 前 的 非常 相似 : 


















































import requests 


files = {'uploadFile': open('files/python.png', 'rb')} 
r = requests.post('http://pythonscraping.com/pages/processing2.php', 
files=files) 
print(r.text) 
需要 注意 ， 这 里 提交 给 表单 字段 uploadFile 的 值 不 是 一 个 简单 的 字符 串 了 ， 而 是 一 个 由 
open 图 数 返 回 的 Python 文件 对 象 。 在 这 个 例子 中 ， 我 提交 了 一 个 保存 在 我 电脑 上 的 图 像 
文件 ， 文 件 路 径 是 相对 这 个 Python 程序 所 在 位 置 的 /files/Python-logo.png。 
































没 错 ， 就 是 这 么 简单 ! 


10.5 ”处理 登录 和 cookie 


到 此 为 止 ， 我 们 主要 讨论 的 是 允许 你 向 网 站 提交 信息 的 表单 ， 或 者 在 提交 后 能 立即 在 页 面 
上 看 到 所 需 信 息 的 表单 。 那 么 ， 这 些 表单 和 登录 表单 ( 当 你 浏览 网 站 时 让 你 保持 “已 登 
东 ” 状 态 ) 有 什么 不 同 ? 

大 多 数 现代 网 站 都 用 cookie 跟踪 用 户 是 否 已 登录 的 状态 信息 。 一 旦 网 站 验证 了 你 的 登录 
凭据 ， 就 会 在 你 的 浏览 器 上 将 其 保存 为 一 个 cookie， 里 面 通常 包含 一 个 由 服务 器 生成 的 令 
牌 、 登 录 有 效 时 限 和 状态 跟踪 信息 。 网 站 会 把 这 个 cookie 当 作 一 种 验证 证 据 ， 在 你 浏览 网 
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站 的 每 个 页 面 时 都 出 示 给 服务 器 。 











安全 验证 并 跟踪 用 户 对 网 站 来 说 是 一 个 大 问题 。 





在 20 世纪 90 年 代 中 期 广泛 使 用 cookie 之 前 ， 保 证 用 户 


虽然 cookie 为 Web 开发 者 解决 了 大 问题 ， 却 会 给 网 络 爬 虫 带 来 问题 。 你 可 以 一 整 天 只 提 





交 一 次 登录 表单 ， 但 是 如 果 你 没有 跟踪 表单 后 来 








回 传 给 你 的 那个 cookie， 那 么 一 段 时 间 以 


后 你 访问 新 页 面 时 ， 你 的 登录 状态 就 会 丢失 ， 你 需要 重新 登录 。 














我 在 http://pythonscraping.com/pages/cookies/login.html 创建 了 一 个 简单 的 登录 表单 (用户 名 
可 以 是 任意 值 ， 但 密码 必须 是 “password”)。 这 个 表单 在 欢迎 页 面 (http://pythonscraping. 


com/pages/cookies/welcome. 


php) 处 理 ， 里 面包 含 一 个 到 主 











com/pages/cookies/profile.php。 




















在 的 链接 : http://pythonscraping. 


如 果 在 登录 网 站 之 前 你 试图 访问 欢迎 页 面 或 者 简介 页 面 ， 会 看 到 一 个 错误 信息 和 请 先 登录 





























的 指令 。 在 简介 页 面 中 ， 网 站 会 检 闹 














import requests 


params = {'username ' : 


用 Requests 库 跟 踪 cookie 同样 很 简单 ; 





"Ryan' ， "password': 'password 


由 


I 浏览 器 的 cookie， 看 它 有 没有 页 面 已 登录 的 设置 信息 。 


r = requests.post('http://pythonscraping.com/pages/cookies/welcome.php', params) 
print('Cookie is set to:') 
print(r.cookies.get dict()) 
print('Going to profile page...') 
r = requests.get('http://pythonscraping.com/pages/cookies/profile.php', 
cookies=r .cookies) 


print(r.text) 








这 里 我 向 欢迎 页 面 发 送 了 一 个 登录 参数 ， 它 的 作用 就 像 登 录 表单 的 处 理 器 。 然 后 我 从 请 求 
结果 中 获取 cookie， 打 印 登录 状态 的 验证 结果 ， 然 后 再 通过 cookies 参数 把 cookie 发 送 到 








简介 页 面 。 
































对 于 简单 的 访问 ， 这 样 处 更 





cookie， 或 者 如 果 你 从 一 开始 就 完全 不 想 用 cookie， 该 怎么 处 














没有 问题 ， 但 是 如 果 你 面 对 的 网 站 比较 复杂 ， 它 经 常 暗自 调整 








函数 可 以 完美 地 解决 这 个 问题 : 


import requests 


session = requests.Session() 


params = {'username': 


print(s.text) 

















里 呢 ?9 Requests 库 的 session 


'Username', 'password': 'password'} 

s = session.post('http://pythonscraping.com/pages/cookies/welcome.php', params) 
print('Cookie is set to:') 
print(s.cookies.get dict()) 
print('Going to profile page...') 
s = session.get('http://pythonscraping.com/pages/cookies/profile.php') 
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在 这 个 例子 中 ， 会 话 (session) 对 象 (通过 调用 requests.Session() 获取 ) 会 持续 跟踪 会 
话 信息 ， 包 括 cookie、header， 甚 至 是 HITP 协议 的 信息 ， 比 如 HTTPAdapter (为 HITP 
和 HTTPS 的 链接 会 话 提供 统一 接口 )。 








Requests 是 一 个 非常 给 力 的 库 ， 程 序 员 完全 不 用 费 脑 子 ， 也 不 用 写 代 码 ， 可 能 只 逊色 于 
Selenium (第 11 章 将 会 介绍 )。 虽 然 写 网 络 仆 虫 的 时 候 ， 你 可 能 想 放 手 让 Requests 库 赫 自 
己 做 所 有 的 事情 ， 但 是 持续 关注 cookie 的 状态 ， 掌 握 它们 可 以 控制 的 范围 是 非常 重要 的 。 
这 样 可 以 避免 痛苦 地 调试 和 分 析 网 站 的 异常 行为 ， 节 省 很 多 时 间 。 








HTTP 基 本 接 入 认证 

在 发 明 cookie 之 前 ， 处 理 网 站 登录 的 一 种 常用 方法 就 是 用 HTTP 基本 接 入 认证 (HTTP 
basic access authentication)。 你 会 时 不 时 见 到 它们 ， 尤 其 是 在 一 些 安全 性 较 高 的 网 站 或 公司 
网 站 上 ， 以 及 一 些 API 上 。 我 在 http://pythonscraping.com/pages/auth/login.php 用 这 种 认证 
方法 创建 了 一 个 页 面 ( 见 图 10-2) 。 






































加 ea , x 国 国 
Authentication Required 
The server http://pythonscraping.com:80 requires a 
介 username and password. The Server says: My Realm. Pp 
User Name: | | Ss 
np | Utl 
Password: 
Cancel Log In 
归 了 一 = rasa Ca 











10-2: 基本 接 入 认证 页 面 ， 用 户 必须 提供 用 户 名 和 密码 才能 登录 


和 前 面 的 例子 一 样 ， 你 可 以 用 任意 用 户 名 登录 ， 但 是 密码 必须 是 “password 。 





Requests 库 有 一 个 auth 模块 ， 专 门 用 来 处 理 HTTP 认证 : 


import requests 
from requests.auth import AuthBase 
from requests.auth import HTTPBasicAuth 


auth = HTTPBasicAuth('ryan', 'password') 

r = requests.post(url='http://pythonscraping.com/pages/auth/login.php' , auth= 
auth) 

print(r.text) 


虽然 这 看 着 像 是 一 个 普通 的 PosT 请 求 ， 但 是 有 一 个 HTTPBasicAuth 对 象 作为 auth 参数 传 
递 到 了 请 求 中 。 显 示 的 结果 将 是 用 户 名 和 密码 验证 成 功 的 页 面 (如 果 验 证 失败 ， 就 是 一 个 
拒绝 接 入 页 面 )。 
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10.6 ”其 他 表单 问题 


网 页 表单 是 网 络 恶 意 机 器 人 (malicious bots) 酷爱 的 网 站 切入 点 。 你 当然 不 希望 机 器 人 创 
建 垃圾 账号 ， 占 用 昂贵 的 服务 器 资源 ， 或 者 在 博客 上 提交 垃圾 评论 。 因 此 ， 现 代 网 站 经 常 
在 HTML 中 采取 很 多 安全 措施 ， 让 表单 不 能 被 快速 穿越 。 























关于 验证 码 (CAPTCHA) 的 作用 ， 请 查看 第 13 章 内 容 ， 里 面 介绍 了 Python 
的 图 像 处 理 和 文本 识别 方法 。 








如 果 你 在 提交 表单 时 遇 到 了 一 个 莫名 其 妙 的 错误 ， 或 者 服务 器 一 直 以 陌生 的 理由 拒绝 你 ， 
请 查看 第 14 章 内 容 ， 里 面 介 绍 了 蜜 负 (honey pot) 、 隐 含 字段 (hidden field) ， 以 及 其 他 保 
护 网 页 表单 的 安全 措施 。 
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抓 取 JavaScript 





客户 端 脚本 语言 是 运行 在 浏览 器 而 非 服务 器 上 的 语言 。 客 户 端 语言 成 功 的 前 提 是 浏览 器 能 
够 正确 地 解释 和 执行 这 类 语言 (这 也 是 在 浏览 器 上 禁用 JavaScript 非常 容易 的 原因 )。 


在 一 定 程度 上 ， 由 于 很 难 让 所 有 浏览 器 开发 商都 认可 同一 个 标准 ， 所 以 客户 端 语言 比 服务 
器 端 语言 要 少 很 多 。 不 过 这 在 网 页 抓 取 的 时 候 是 件 好 事 : 要 处 理 的 语言 越 少 越 好 。 


通常 ， 你 在 网 上 遇 到 的 客户 端 语 言 只 有 两 种 ;ActionScript (开发 Flash 应 用 的 语言 ) 和 
JavaScript。 今 天 ActionScript 的 使 用 率 比 10 年 前 低 很 多 ， 它 经 常用 于 流 媒 体 文件 播放 ， 用 
作 在 线 游 戏 的 平台 ， 或 者 用 于 那些 没 人 想 看 的 网 站 “介绍 ”页 面 。 总 之 ， 抓 取 Flash 页 面 
的 需求 并 不 多 ， 所 以 本 章 重点 介绍 现代 网 页 中 普遍 使 用 的 客户 端 语言 : JavaScript。 








到 目前 为 止 ，JavaScript 是 Web 上 最 常用 也 是 支持 者 最 多 的 客户 端 脚本 语言 。 它 可 以 收集 
用 户 跟踪 数据 ， 不 需要 重 载 页 面 直接 提交 表单 ， 在 页 面 中 租 入 多 媒体 文件 ， 甚 至 运行 在 线 
游戏 。 那 些 看 起 来 非常 简单 的 页 面 背后 通常 使 用 了 许多 JavaScript 文件 。 你 可 以 在 网 页 源 
代码 的 <script> 标签 之 间 看 到 它们 : 























<script> 
alert("This creates a pop-up using JavaScript"); 
</script> 


11.1 JavaScript 简 介 
对 要 抓 取 的 语言 预先 做 些 了 解 会 很 有 用 。 自 己 熟悉 -一 下 JavaScript 总 会 有 好 处 。 














JavaScript 是 一 种 弱 类 型 语言 ， 其 语法 通常 可 以 与 C++ 和 Java 相 比 。 虽 然 语法 中 的 一 些 元 
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素 ， 比 如 操作 符 、 
型 和 脚本 形式 被 一 些 程序 员 看 成 是 折磨 人 的 “怪兽 ”。 





例如 ， 下 面 的 JavaScript 程序 通过 递归 方式 计算 斐 波 纳 契 
的 开发 者 控制 台 里 : 





<script> 

function fibonacci(a, b){ 
var nextNum = a + b; 
console.log(nextNum+" 
if(nextNum < 100){ 

fibonacci(b, nextNum); 

} 

} 

fibonacci(1, 1); 

</script> 


注意 ，JavaScript 里 所 有 的 变量 
Java 和 C++ 里 的 类 型 声明 (int、String、 


显 式 的 变量 声明 。 


有 一 个 非常 好 的 特性 ， 就 是 把 函数 作为 变 





JavaScript 还 量 使 用 . 
<script> 
var fibonacci = function() { 
var a = 1; 
var b= 1; 
return function () { 
var temp = b; 


b=at+tb; 
a = temp; 
return b; 


} 
} 
var fibInstance = fibonacci(); 
console.log(fibInstance()+" is 
console.log(fibInstance()+" is 
console.log(fibInstance()+" is 
</script> 


循环 条 件 和 数组 ， 都 与 CH+、Java 语法 很 接近 


is in the Fibonacci sequence"); 


， 但 是 JavaScript 的 弱 类 


后 把 结果 打印 在 浏览 器 


都 用 var 关键 字 进 行 定 义 。 这 与 PHP 里 的 $ 符 号 ， 或 者 
List 等 ) 类 似 。Python 不 太一 样 ， 


它 没 有 这 种 





in the Fibonacci sequence"); 
in the Fibonacci sequence"); 
in the Fibonacci sequence"); 


这 段 代 码 乍 看 起 来 可 能 有 点 儿 候 怖 ， 不 过 如 果 你 把 这 种 特性 看 成 Lambda 表达 式 (第 2 章 








介绍 过 )， 就 很 简单 了 。 变 量 fibonacci 被 定义 成 一 个 函数 。 它 的 函数 值 返回 一 个 函数 ， 该 
函数 会 打印 韭 波 纳 契 序列 里 不 断 增 大 的 值 。 每 次 被 调用 时 ， 它 都 会 返回 韭 波 纳 掉 的 计算 函 


数 ， 该 函数 再 次 执行 序列 计算 ， 并 增加 函数 变量 的 值 。 
虽然 乍 看 起 来 有 已 儿 复杂 ， 但 是 在 解决 一 些 问题 时 ， 比 如 计算 斐 











还 是 比较 合 


波 纳 契 序列 值 ， 这 种 模式 


适 的 。 在 处 理 用 户 行为 和 回调 函数 时 ， 把 国 数 作为 变量 进行 传递 是 非常 方便 





的 ， 另 外 在 阅读 JavaScript 代码 的 时 候 也 有 必要 适应 这 种 编程 方式 。 
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常用 JavaScript 库 


虽然 了 解 JavaScript 语言 本 身 的 语法 很 重要 ， 但 是 在 现代 Web 上 ， 你 至 少 得 使 用 一 种 JavaScript 
第 三 方 库 。 在 查看 网 页 源 代码 的 时 候 ， 你 可 能 会 看 到 一 种 或 多 种 常用 的 JavaScript 库 。 

















用 Python 执行 JavaScript 代码 的 效率 非常 低 ， 既 费时 又 费力 ， 尤 其 是 在 处 理 规模 较 大 的 
JavaScript 代码 时 。 如 果 有 绕 过 JavaScript 并 直接 解析 它 的 方法 (不 需要 执行 它 就 可 以 获得 
信息 ) 会 非常 实用 ， 可 以 帮 你 避 开 一 大 堆 麻 烦 事 。 

















1. jQuery 

jQuery 是 一 个 十 分 常见 的 库 ，70% 的 最 流行 的 网 站 ( 约 200 万) 和 约 30% 的 其 他 网 站 
( 约 2 亿 ) 都 在 使 用 。: 使 用 了 jQuery 的 网 站 很 好 识别 ， 其 源 代码 里 包含 了 jQuery 的 入 口 ， 
比如 : 

















<script src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js"></ 
script> 


如 果 你 在 一 个 网 站 上 看 到 了 jQuery， 那么 抓 取 这 个 网 站 的 数据 时 要 格外 小 心 。jQuery 可 以 
动态 地 创建 HTML 内 容 ， 这 些 内 容 只 有 在 JavaScript 代码 执行 之 后 才 会 显示 。 如 果 你 用 传 
统 的 方法 抓 取 页 面 内 容 ， 就 只 能 获得 JavaScript 代码 执行 之 前 页 面 上 的 内 容 (11.2 节 会 详 
细 介 绍 这 个 抓 取 问 题 )。 





























另外 ， 这 些 页 面 很 可 能 包含 动画 、 用 户 交 互 内 容 和 由 入 式 媒体 ， 这 些 内 容 都 增加 了 网 页 抓 
取 的 难度 。 

2. Google Analytics 

大 约 一 半 的 网 站 都 在 用 Google Analytics ， 它 可 能 是 网 站 最 常用 的 JavaScript 库 和 最 受 欢 
迎 的 用 户 跟踪 工具 。http://pythonscraping.com 和 http://www.oreilly.com/ 都 用 了 Google 
Analytics。 





























很 容易 判断 一 个 页 面 是 不 是 使 用 了 Google Analytics。 如 果 网 站 使 用 了 它 ， 在 页 面 底部 会 有 
类 似 如 下 所 示 的 JavaScript 代码 ( 取 自 OReilly Media 网 站 ) : 




















<!-- Google Analytics --> 
<script type="text/javascript"> 


var _gaq = _gaq || []; 
_gaq.push(['_setAccount', 'UA-4591498-1']); 
_gaq.push(['_setDomainName', 'oreilly.com’']); 
_gaq.push(['_addIgnoredRef', 'oreilly.com’']); 
_gaq.push(['_setSiteSpeedSampleRate' , 50]); 








注 1: Dave Methvin 于 2014 年 1 月 13 日 在 他 的 博客 中 发 表 了 “The State of jQuery 2014” 一 文 ， 里 面包 含 
了 详细 的 统计 数据 。 
注 2: W3Techs, “Usage Statistics and Market Share of Google Analytics for Websites”. 
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_gaq.push(['_trackPageview' ]); 


(function() { var ga = document.createElement('script'); ga.type = 
'text/javascript'; ga.async = true; ga.src = ('https:' == 
document. location.protocol ? 'https://ssl' : 'http://ww') + 
'.google-analytics.com/ga.js'; var s = 

document .getELementsByTagName('"script')[0]; 
s.parentNode.insertBefore(ga, s); })(); 


</script> 











这 上 段 代 码 处 理 用 于 跟踪 页 面 访问 的 Google Analytics 的 cookie。 有 时 候 ， 这 对 于 设计 用 于 执行 
JavaScript 和 处 理 cookie 的 爬虫 〈 比 如 利用 Selenium 的 那些 ， 稍 后 讨论 ) 来 说 会 是 个 问题 。 




















如 果 一 个 网 站 使 用 了 Google Analytics 或 其 他 类 似 的 网 络 分 析 系 统 ， 而 你 不 想 让 网 站 知道 
你 在 抓 取 它 的 数据 ， 就 要 确保 把 那些 分 析 工 具 的 cookie 或 者 所 有 cookie 都 关 掉 。 


3. Google Maps 
只 要 你 上 过 网 ， 就 一 定 见 过 内 骨 Google Maps 的 网 站 。 用 Google Maps 的 API 很 容易 在 任 
何 网 站 上 髓 入 带 有 自 定 义 信 息 的 地 图 。 


如 果 你 要 抓 取 任何 位 置 数 据 ， 理 解 Google Maps 的 工作 方式 可 以 让 你 轻松 地 获取 格式 规范 
的 经 纬度 坐标 和 具体 地 址 。 在 Google Maps 上 ， 显 示 一 个 位 置 最 常用 的 一 种 方法 就 是 用 标 
记 (一 个 大 头 针 )。 


























可 以 用 下 面 的 代码 将 标记 插 在 Google Maps 上 : 


var marker = new google.maps.Marker({ 
position: new google.maps.LatLng(-25.363882,131.044922), 
map: map, 
title: 'Some marker text' 


}); 





Python 可 以 轻松 地 抽取 出 所 有 位 置 在 googte.maps.LatLng() 里 的 坐标 ， 生 成 一 组 经 纬度 坐 
标 值 。 




















通过 Google 的 Reverse Geocoding API， 你 可 以 把 这 些 经 纬度 坐标 组 解析 成 格式 规范 的 地 
址 ， 便 于 存储 和 分 析 。 


11.2 ”Ajax 和 动态 HTML 


到 目前 为 止 ， 我 们 与 Web 服务 器 通信 的 唯一 方式 ， 就 是 发 出 HTTP 请 求 获 取 新 页 面 。 如 果 
提交 表单 之 后 ， 或 者 从 Web 服务 器 获取 信息 时 ， 网 站 的 页 面 不 需要 重新 加 载 ， 那 么 你 访问 
的 网 站 很 可 能 使 用 了 Ajax 技术 。 









































与 一 些 人 的 想法 相反 ，Ajax 其 实 并 不 是 一 门 语言 ， 而 是 用 来 完成 某 个 任务 〈 细 想 一 下 ， 与 
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网 页 抓 取 差不多 ) 的 一 系列 技术 。Ajax 的 全 称 是 Asynchronous JavaScript and XML (异步 
JavaScript 和 XML)， 网 站 不 需要 使 用 单独 的 页 面 请 求 就 可 以 和 Web 服务 器 进行 交互 ( 收 
发 信息 )。 


需要 注意 的 是 ， 你 不 应 该 说 “这 个 网 站 是 用 Ajax 写 的 "。 正 确 的 说 法 应 该 是 
“这 个 表单 使 用 Ajax 与 Web 服务 器 通信 ”。 

















和 Ajax 一 样 ， 动 态 HTML (dynamic HIML，DHTML) 也 是 用 于 某 一 常见 目的 的 一 系列 
技术 。DHTML 是 客户 端 脚本 改变 页 面 的 HTML 元 素 时 ， 改 变 的 HTML 代码 、CSS 语言 ， 
或 者 二 者 兼 而 有 之 。 比 如 ， 按 钮 仅 在 用 户 移动 光标 之 后 才 出 现 ， 背 景色 可 能 每 次 点 击 都 会 
改变 ,或 者 用 一 个 Ajax 请 求 触 发 页 面 加载 一 段 新 内 容 。 


值得 注意 的 是 ， 虽 然 “ 动 态 ”这 个 词 往往 和 “移动 ”或 “变化 ”联系 在 一 起 ， 但 是 那些 使 
用 了 交互 式 HIML 组 件 、 图 像 可 以 移动 ， 或 者 带 有 上 艇 入 式 媒体 文件 的 网 页 ， 并 不 一 定 就 是 
DHTML， 即 使 页 面 看 起 来 是 动态 的 。 另 外 ， 一些 看 起 来 极其 单调 、 静 态 的 网 页 ， 底 层 却 
可 能 是 用 DHTML 处 理 的 ， 关 键 要 看 有 没有 用 JavaScript 控制 HTML 和 CSS 元 素 。 











如 有 果 你 抓 取 过 许多 网 站 ， 很 可 能 会 遇 到 这 样 一 种 情况 : 你 在 浏览 器 上 看 到 的 内 容 ， 与 你 用 
候 虫 从 网 站 上 抓 取 的 内 容 不 一 样 。 你 可 能 会 怀疑 自己 是 不 是 哪个 细 市 没 处 理 好 ,希望 找 出 
内 容 抓 取 不 出 来 的 原因 。 

有 了 时 你 还 会 发 现 ， 网 页 用 一 个 加 载 页 面 把 你 重 定向 到 另 一 个 结果 页 面 ， 但 是 网 页 的 URL 
链接 在 这 个 过 程 中 一 直 没 有 变化 。 


这 些 都 是 因为 你 的 念 虫 不 能 执行 那些 让 页 面 产生 各 种 神奇 效果 的 JavaScript 代码 。 如 果 网 
站 的 HTML 页 面 没 有 执行 JavaScript， 就 可 能 和 你 在 浏览 器 里 看 到 的 样子 完全 不 同 ， 因 为 
浏览 器 可 以 正确 地 执行 JavaScript。 




















对 于 那些 使 用 了 Ajax 或 DHTML 技术 来 改变 /加 载 内 容 的 页 面 ， 可 能 有 一 些 抓 取 手段 ， 
但 是 用 Python 解决 这 个 问题 只 有 两 种 途径 : 直接 从 JavaScript 代码 里 抓 取 内 容 ， 或 者 用 
Python 的 第 三 方 库 执行 JavaScript， 直 接 抓 取 你 在 浏览 器 里 看 到 的 页 面 。 














11.2.1 在 Python 中 用 Selenium 执 行 JavaScript 

Selenium 是 一 个 强大 的 网 页 抓 取 工 具 ， 最 初 是 为 网 站 自动 化 测试 而 开发 的 。 近 几 年 ， 它 还 被 
广泛 用 于 获取 精确 的 网 站 快照 ， 因 为 网 站 可 以 直接 运行 在 浏览 器 中 。Selenium 可 以 让 浏览 器 
自动 加 载 网 站 ， 获 取 需 要 的 数据 ， 甚 至 对 页 面 截屏 ， 或 者 判断 网 站 上 是 否 发 生 了 某 些 操作 。 














Selenium 自己 不 带 浏 览 器 ， 它 需要 与 第 三 方 浏 览 器 集成 才能 运行 。 例 如 ， 如 果 你 在 Firefox 
上 运行 Selenium， 会 看 到 一 个 Firefox 窗口 被 打开 ， 进 入 网 站 ， 然 后 执行 你 在 代码 中 设置 
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的 动作 。 虽 然 这 样 可 以 看 得 更 清楚 ， 但 是 我 更 喜欢 让 程序 在 后 台 静 静 地 运行 ， 所 以 我 用 一 
个 叫 PhantomJS 的 工具 代替 真实 的 浏览 器 。 











PhantomJS 是 一 个 无 头 浏览 器 (headless browser) 。 它 会 把 网 站 加 载 到 内 存 并 执行 页 面 上 的 
JavaScript， 但 是 它 不 会 向 用 户 展示 网 页 的 图 形 界面 。 把 Selenium 和 PhantomJS 结合 在 一 
起 ,就 可 以 运行 一 个 非常 强大 的 网 络 候 虫 来 轻松 处 理 cookie、JavaScript、header 以 及 任何 
你 需要 做 的 事情 。 






































你 可 以 从 PyPI 网 站 下 载 Selenium 库 ， 也 可 以 用 第 三 方 管理 器 (比如 pip) 用 命令 行 安装 。 





PhantomJS 可 以 从 它 的 官方 网 站 下 载 。 因 为 PhantomJS 是 一 个 功能 完善 (虽然 无 头 ) 的 浏 
览 器 ， 并 非 一 个 Python 库 ， 所 以 需要 下 载 并 安装 才能 使 用 ， 并 且 不 能 用 pip 进行 安装 。 




















虽然 很 多 页 面 都 用 Ajax 加 载 数 据 (尤其 是 Google)， 我 还 是 在 http://pythonscraping.com/ 
pages/javascript/ajaxDemo.html 创建 了 一 个 简单 的 页 面 来 运行 我 们 的 念 虫 。 这 个 页 面 上 有 一 
些 简单 的 文字 ， 是 手工 敲 在 HTML 代码 里 的 ， 打 开 页 面 两 秒 钟 之 后 ， 它 们 就 会 被 替换 成 由 
Ajax 生成 的 内 容 。 如 果 我 们 用 传统 的 方法 抓 取 这 个 页 面 ， 只 能 获取 加 载 页 面 ， 而 我 们 真正 
需要 的 信息 (Ajax 执行 之 后 的 页 面 ) 却 抓 不 到 。 


Selenium 库 是 一 个 在 WebDriver 对 象 上 调用 的 API。WebDriver 有 点 儿 像 可 以 加 载 网 站 的 
浏览 器 ， 但 是 它 也 可 以 像 Beautifulsoup 对 象 一 样 用 来 查找 页 面 元 素 ， 与 页 面 上 的 元 素 交 
互 (发 送 文 本 、 点 击 等 )， 以 及 执行 其 他 动作 来 运行 网 络 仆 虫 。 
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下 面 的 代码 可 以 获取 前 面 测 试 页面 上 Ajax“ 墙 ”后 面 的 内 容 : 

















from selenium import webdriver 
import time 


driver = webdriver.Phantom]JS(executabLe_path='<PhantomJS Path Here>') 
driver.get('http://pythonscraping.com/pages/javascript/ajaxDemo.html') 
time.sleep(3) 

print(driver.find element_ by_id('content').text) 

driver.close() 





Selenium 的 选择 器 
在 之 前 的 几 章 里 ， 我 们 用 过 BeautifulSoup 的 选择 器 来 选择 页 面 的 元 素 ， 比 如 find 和 
findALL。Selenium 在 WebDriver 的 DOM 中 使 用 了 一 组 全 新 的 选择 器 来 查找 元 素 ， 不 
过 它们 都 使 用 非常 直截了当 的 名 称 。 
在 这 个 例子 中 ， 我 们 用 的 选择 器 是 find_eLement_by_id， 但 下 面 的 其 他 选择 器 也 可 以 
获得 同样 的 结果 。 


driver.find element by_css_selector('#content') 
driver.find_ element by_tag_name('div') 
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当然 ， 如 果 你 想 选 择 页 面 上 的 多 个 元 素 ， 大 部 分 选择 器 都 可 以 用 elements (复数 ) 来 
返回 一 个 Python 列表 : 


driver.find elements_ by_css_selector('#content') 
driver.find elements by_css_selector('div') 


另外 ， 如 果 你 还 是 想 用 BeautifulSoup 来 解析 网 页 内 容 ， 可 以 用 WebDriver 的 page_ 
source 函数 返回 页 面 的 源 代 码 字 符 串 。 
pageSource = driver.page_source 


bs = BeautifulSoup(pageSource, 'html.parser') 
print(bs.find(id='content').get text()) 











这 段 代 码 用 PhantomJS 库 创建 了 一 个 新 的 Selenium WebDriver， 首 先 用 WebDriver 加 载 页 
盏 ， 然 后 暂停 执行 3 秒 钟 ， 再 查看 页 面 以 获取 (希望 已 经 加 载 完 成 的 ) 内 容 。 


依据 你 的 PhantomJS 安装 位 置 ， 在 创建 新 的 PhantomJS WebDriver 时 ， 你 可 能 还 需要 在 
Selenium 的 WebDriver 接 入 点 指明 PhantomJS 可 执行 文件 的 路 径 ， 

















driver = webdriver.Phantom]JS(executabLe_path='path/to/driver/ 
'phantomjs-1.9.8-macosx/bin/phantomjs') 





如 果 一 切 配 置 正确 ， 上 面 的 程序 会 在 儿 秒 钟 后 显示 下 面 的 结果 : 











Here is some important text you want to retrieve! 
A button to click! 














需要 注意 的 是 ， 虽 然 页 面 里 有 一 个 元 素 是 HTML 按钮 ， 但 是 Selenium 的 .text 函数 可 以 
获取 按钮 的 文本 内 容 ， 就 像 获取 页 面 上 其 他 元 素 的 内 容 一 本 


如 果 time.steep 的 暂停 时 间 由 3 秒 改 成 1 秒 ， 那 么 上 面 程序 抓 取 的 文本 就 会 变 成 : 














2 
To 









































This is some content that will appear on the page while it's loading. 
You don't care about scraping this. 


虽然 这 个 方法 奏效 了 ， 但 是 效率 不 够 高 ， 在 处 理 规模 较 大 的 网 站 时 可 能 会 出 问题 。 页 面 的 
加 载 时 间 是 不 确定 的 ， 具 体 依赖 于 服务 器 某 一 毫秒 的 负载 情况 ， 以 及 不 断 变 化 的 网 速 。 虽 
然 这 个 页 面 只 需要 2 秒 多 的 加 载 时 间 ， 但 是 我 们 设置 了 3 秒 的 等 待 时 间 以 确保 页 面 完全 加 
载 。 一 种 更 加 高 效 的 方法 是 ， 让 Selenium 不 断 地 检查 某 个 元 素 是 否 存在 ， 以 此 确定 页 面 是 
否 已 经 完全 加 载 ， 如 果 页 面 加 载 成 功 就 执行 后 面 的 程序 。 
































下 面 的 程序 检查 ID 为 LoadedButton 的 按钮 是 否 存在 ， 以 此 判断 页 面 是 不 是 已 经 完全 加 载 : 























from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 








from selenium.webdriver.support import expected conditions as EC 


driver = webdriver.Phantom]JS(executabLe_path=' ') 
driver.get('http://pythonscraping.com/pages/javascript/ajaxDemo.html') 
try: 

element = WebDriverWait(driver, 10).until( 

EC.presence_of_element_ located((By.ID, 'loadedButton'))) 

finally: 

print(driver.find_ element_ by_id('content').text) 

driver.close() 





程序 里 导入 了 一 些 新 的 模块 ， 最 值得 注意 的 是 WebDriverWait 和 expected_conditions,， 这 
两 个 模块 组 合 起 来 构成 了 Selenium 的 隐 式 等 待 (implicit wait) 。 


隐 式 等 待 与 显 式 等 待 的 不 同 之 处 在 于 ， 隐 式 等 待 是 等 DOM 中 某 个 状态 发 生 后 再 继续 运行 
代码 ,而 显 式 等 待 明确 设置 了 等 待 时 间 , 如 前 面 例子 中 的 3 秒 钟 。 在 隐 式 等 待 中 , DOM 触 
发 的 状态 是 用 expected_conditions 定义 的 (这 里 导入 后 用 了 别名 EC， 是 常用 的 简称 )。 在 
Selenium 库 里 面 元 素 被 触发 的 期 望 条 件 (expected condition) 有 很 多 种 ， 包 括 : 


。 弹出 一 个 提示 杠 
。 一 个 元 素 (比如 文本 框 ) 被 选中 

。 页 面 的 标题 改变 了 ， 或 者 文本 显示 在 页 面 上 或 者 某 个 元 素 里 

。 一 个 元 素 对 DOM 可 见 ， 或 者 一 个 元 素 从 DOM 中 消失 了 

当然 ， 大 多 数 期 望 条 件 在 使 用 前 都 需要 你 先 指定 等 待 的 目标 元 素 。 元 素 用 定位 器 (locator) 
指定 。 注 意 ， 定 位 器 与 选择 器 是 不 一 样 的 〈 关 于 选择 器 的 更 多 介绍 ， 请 参见 前 文 的 
“Selenium 的 选择 器 ”)。 定 位 器 是 一 种 抽象 的 查询 语言 ， 用 By 对 象 表示 ， 可 以 用 于 不 同 的 
场合 ， 包 括 创建 选择 器 。 


在 下 面 的 示例 代码 中 ， 一 个 定位 器 被 用 来 查找 ID 为 loadedButton 的 按钮 : 

























































































EC.presence_of_element_located( (By.ID, 'loadedButton')) 


定位 器 还 可 以 用 来 创建 选择 器 ， 配 合 WebDriver 的 find_element 函数 使 用 : 





print(driver.find_element(By.ID, 'content').text) 





才 


看 这 行 代码 的 功能 和 示例 代码 中 一 样 : 














print(driver.find element_ by_id('content').text) 





如 果 你 可 以 不 用 定位 器 ， 就 不 要 用 ， 毕 竞 这 样 可 以 少 导入 一 个 模块 。 但 是 ， 定 位 器 是 一 种 
十 分 方便 的 工具 ， 可 以 用 在 不 同 的 应 用 中 ， 并 且 具 有 很 强 的 灵活 性 。 

















注 3: 没有 明确 的 等 待 时 间 ， 但 是 有 最 大 等 待 时 限 ， 只 要 在 时 限 内 就 可 以 。 一 一 译 者 注 
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下 面 是 定位 器 通过 By 对 象 进行 选择 的 策略 。 











ID 





在 上 面 的 例子 里 用 过 ; 通过 HTML 的 id 属性 查找 元 素 。 








CLASS_NAME 
通过 HTML 的 class 属性 来 查找 元 素 。 为 什么 这 个 函数 是 CLASS_NAME， 而 不 是 简单 的 
CLASS ? 在 Selenium 的 Java 库 里 使 用 object.CLASS 可 能 会 出 现 问 题 ，.class 是 Java 保 
留 的 一 个 方法 。 为 了 让 Selenium 语法 可 以 兼容 不 同 的 语言 ， 就 用 CLASS_NAME 代 赫 。 











CSS_SELECTOR 
通过 CSS 的 class、id、tag 属性 名 来 查找 元 素 ， 用 上 届 dName、.cLassName、tagName 表示 。 





LINK_TEXT 
通过 链接 文字 查找 HTML 的 <a> 标签 。 例 如 ， 如 果 一 个 链接 的 文字 是 “Next”， 就 可 以 
用 (By.LINK_TEXT，"Next") 来 选择 。 





PARTIAL_LINK_TEXT 
与 LINK_TEXT 类 似 ， 只 是 通过 部 分 链接 文字 来 查找 。 
NAME 
通过 name 属性 查找 HTML 标签 。 这 在 处 理 HTML 表单 时 非常 方便 。 























TAG_NAME 
通过 标签 的 名 称 查找 HTML 标签 。 


XPATH 
用 XPath 表达 式 选择 匹配 的 元 素 。 








XPath 语法 
XPath (XML Path，XML 路 径 ) 是 在 XML 文档 中 导航 和 选择 元 素 的 查询 语言 。 它 由 
W3C 于 1999 年 创建 ， 在 Python、Java 和 C# 这 些 语 言 中 有 时 被 用 来 处 理 XML 文档 。 


虽然 BeautifulSoup 不 支持 XPath， 但 是 本 书 中 的 很 多 库 (例如 Selenium 和 Scrapy) 都 
支持 。 它 的 使 用 方式 通常 和 CSS 选择 器 (比如 mytag#idname) 一 样 ， 虽 然 它 原本 被 设 
计 用 于 处 理 更 规范 的 XML 文档 而 不 是 HTML 文档 。 


XPath 语法 中 有 4 个 重要 概念 。 
。 根 节 点 和 非 根 节点 
一 /div 选择 div 节点， 只 有 当 它 是 文档 的 根 节 点 时 
一 //div 选择 文档 中 所 有 的 div 节点 (包括 非 根 节点 ) 
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。 通过 属性 选择 节点 
一 //@href 选择 带 href 属性 的 所 有 节点 
一 //a[@href='http://google.com'] 选择 文档 中 所 有 指向 Google 网 站 的 链接 
。 通过 位 置 选择 节点 
一 //a[3] 选择 文档 中 的 第 3 个 链接 
一 //table[last()] 选择 文档 中 的 最 后 一 个 表 
一 //a[position() < 3] 选择 文档 中 的 前 3 个 链接 
。 星 号 (*) 匹配 任意 字符 或 节点 ， 可 以 在 不 同情 况 下 使 用 
一 //table/tr/* 选择 所 有 表格 中 tr 标签 的 所 有 子 节点 (这 很 适合 选择 th 和 
td 标签 ) 
一 //div[@*] 选择 带 任意 属性 的 所 有 div 标签 
当然 ，XPath 还 有 很 多 高 级 的 语法 特征 。 经 过 这 些 年 的 发 展 ， 它 已 经 变 成 一 种 非常 复 
杂 的 查询 语言 ， 可 以 使 用 布尔 逻辑 、 函 数 (如 position()) ， 以 及 大 量 这 里 没 介 绍 的 操 
作 符 。 
如 果 这 里 介绍 的 几 个 XPath 功能 解决 不 了 你 的 HTML 或 XML 元 素 选 择 问 题 ， 请 参考 
微软 的 XPath 语法 页 面 。 











11.2.2 Selenium 的 其 他 webdriver 

在 前 一 节 中 ，Selenium 使 用 的 是 PhantomJS driver。 在 大 多 数 情况 下 ， 浏 览 器 都 不 会 弹出 ， 
就 可 以 直接 开始 抓 取 网 站 ， 因 此 像 PhantomJS 这 样 的 无 头 浏览 器 是 非常 方便 的 。 但 是 ， 基 
于 以 下 几 个 原因 ， 使 用 另外 一 种 类 型 的 浏览 器 来 运行 你 的 候 虫 可 能 很 有 用 。 














。 故障 排除 。 如 果 你 的 代码 运行 的 是 PhantomJS 并 且 运 行 失败 了 ， 那 么 在 页 面 并 未 展示 在 
你 眼前 的 情况 下 ， 很 难 对 错误 进行 诊断 。 如 有 果 使 用 其 他 的 浏览 器 ， 你 可 以 在 任意 断 点 和 暂 
停 代 码 的 运行 ， 并 与 网 页 进行 交互 。 

。 测试 可 能 只 能 采用 特定 的 浏览 器 来 运行 。 

。 非常 注重 细节 的 网 站 在 不 同 浏览 器 上 的 表现 可 能 不 同 。 你 的 代码 可 能 在 PhantomJS 中 不 



































很 多 官方 和 非 官 方 的 小 组 都 在 为 当今 主流 的 浏览 器 创建 和 维护 Selenium webdriver。 
Selenium 小 组 创建 了 一 个 webdriver 集合 (http:/www.seleniumhq.org/download/) 以 供 参 考 。 











firefox_driver = webdriver.Firefox('<path to Firefox webdriver>') 
chrome_driver = webdriver.Chrome('<path to Chrome webdriver>') 
safari_driver = webdriver.Safari('<path to Safari webdriver>') 
ie_driver = webdriver.Ie('<path to Internet Explorer webdriver>') 
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11.3 处理 重 定向 


客户 端 重 定向 是 在 服务 器 将 页 面 内 容 发 送 到 浏览 器 之 前 ， 由 浏览 器 执行 JavaScript 完成 的 
页 面 跳 转 ， 而 不 是 服务 器 完成 的 跳 转 。 当 使 用 浏览 器 访问 页 面 的 时 候 ， 有 时 很 难 区 分 这 两 
种 重 定向 。 由 于 客户 端 重 定向 执行 得 很 快 ， 加 载 页 面 时 你 其 至 感觉 不 到 任何 延迟 ， 所 以 会 
让 你 觉得 这 个 重 定向 就 是 一 个 服务 器 端 重 定向 。 



























































但 是 ， 在 进行 网 页 抓 取 的 时 候 ， 这 两 种 重 定向 的 差异 是 非常 明显 的 。 根 据 处 理 方 式 ， 服 务 
器 端 重 定向 可 以 轻松 地 通过 Python 的 urttib 库 解 决 ， 而 不 需要 使 用 Selenium (更 多 信息 
请 参考 第 3 章 ) 。 客 户 端 重 定向 却 不 能 这 样 处 理 ， 除 非 你 有 工具 可 以 执行 JavaScript。 















































Selenium 可 以 执行 这 种 JavaScript 重 定 向 ， 就 像 执 行 其 他 JavaScript 一 样 ， 但 是 这 类 重 定 问 
的 主要 问题 是 什么 时 候 停 止 页 面 执行 ， 也 就 是 说 ， 怎 么 判断 一 个 页 面 已 经 完成 重 定 向 。 在 
http://pythonscraping.com/pages/javascript/redirectDemol.html 的 示例 页 面 是 客户 端 重 定向 的 
一 个 例子 ， 有 2 秒 的 延迟 。 


我 们 可 以 用 一 种 智能 的 方法 来 检测 客户 端 重 定向 是 否 已 完成 。 首 先 从 页 面 开始 加 载 
时 就 “监视 ”DOM 中 的 一 个 元 素 ， 然 后 重复 调用 这 个 元 素 ， 直 到 Selenium 抛 出 一 个 
StaleElementReferenceException 异常 ， 也 就 是 说 ， 元 素 不 在 页 面 的 DOM 里 了 ， 这 说 明 此 
时 网 站 已 经 跳 转 。 





























from selenium import webdriver 

import time 

from selenium.webdriver.remote.webelement import WebElement 

from selenium.common.exceptions import StaleElementReferenceException 


def waitForLoad(driver): 
elem = driver.find element_by_tag_name("html") 
count = 0 
while True: 
Count += 1 
if count > 20: 
print('Timing out after 10 seconds and returning') 
return 
time.sleep(.5) 
try: 
elem == driver.find element_ by_tag_name('html') 
except StaleElementReferenceException: 
return 


driver = webdriver .PhantomJS(executable_path="'<Path to Phantom JS>') 
driver.get('http://pythonscraping.com/pages/javascript/redirectDemo1.html') 
waitForLoad(driver) 

print(driver.page_source) 


这 个 程序 每 半 秒 钟 检查 一 次 网 页 ， 看 看 html 标签 还 在 不 在 ， 时 限 为 10 秒 钟 ， 不 过 检查 的 
时 间 间 隔 和 时 限 都 可 以 按 需 随意 调整 。 
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另外 ， 你 可 以 编写 一 个 类 似 的 循环 来 检查 当前 页 面 的 URL， 直 到 URL 发 生 改 变 ， 或 者 匹 
配 到 你 寻找 的 特定 的 URL。 





等 待 元 素 的 出 现 和 消失 是 Selenium 中 一 个 常见 的 任务 ， 你 也 可 以 使 用 前 面 按钮 加 载 示例 中 
的 WebDriverWait 函数 。 这 里 提供 一 个 15 秒 钟 的 时 限 和 一 个 XPath 选择 器 ， 该 XPath 选择 
器 寻找 页 面 内 容 以 完成 同样 的 任务 。 




















from selenium.webdriver.common.by import By 

from selenium.webdriver.support.ui import WebDriverWait 

from selenium.webdriver.support import expected conditions as EC 
from selenium.common.exceptions import TimeoutException 


driver = webdriver.Phantom]JS(executabLe_path= 
'drivers/phantomjs/phantomjs-2.1.1-macosx/bin/phantomjs') 
driver.get('http://pythonscraping.com/pages/javascript/redirectDemo1.html') 
try: 
bodyElement = WebDriverWait(driver, 15).until(EC.presence_of_element_located( 
(By.XPATH, '//body[contains(text(), 
"This is the page you are looking for!)]"))) 
print(bodyElement. text) 
except TimeoutException: 
print('Did not find the element') 


11.4 关于 JavaScript 的 最 后 提醒 


如 今 ， 大 多 数 网 站 都 使 用 了 JavaScript。“ 幸 运 的 是 ， 在 大 多 数 情 况 下 ，JavaScript 的 使 用 并 

\ 影 响 你 抓 取 网 页 的 方式 。JavaScript 可 能 仅 用 来 控制 网 站 的 跟踪 工具 、 控 制 网 站 的 一 小 
部 分 ， 或 者 操作 一 个 下 拉 菜 单 。 如 果 JavaScript 确实 影响 你 抓 取 网 站 的 方式 ， 也 很 容易 通 
过 Selenium 这 样 的 工具 来 执行 它 ， 以 生成 简单 的 HTML 页 面 ( 你 已 经 在 本 书 的 第 一 部 分 
学 会 了 如 何 抓 取 )。 


请 记 住 : 一 个 网 站 使 用 JavaScript 并 不 意味 着 所 有 传统 的 网 页 抓 取 工 具 都 失效 了 。 
JavaScript 的 目标 是 生成 HIML 和 CSS， 然 后 被 浏览 器 泻 染 ,或 者 是 通过 HTTP 请 求 和 响 
应 与 服务 器 动态 通信 。 一 旦 使 用 了 Selenium， 页 面 上 的 HTML 和 CSS 就 可 以 和 其 他 网 站 
代码 一 样 被 读 取 和 解析 ，HTTP 请 求 和 响应 也 可 以 在 不 使 用 Selenium 的 情况 下 用 前 儿童 中 
介绍 的 技术 来 发 送 和 处 理 。 
































另外 ，JavaScript 对 于 网 络 疏 虫 来 说 甚至 会 带 来 一 些 好 处 ， 因 为 它 作 为 “浏览 器 端的 内 容 
管理 系统 ， 可 能 会 向 外 界 暴 露出 有 用 的 API， 让 你 可 以 更 直接 地 获取 数据 。 更 多 的 相关 信 
自 


LGA 》 请 参见 第 12 章 。 








六 



































如 果 你 仍然 难以 应 对 某 种 复杂 的 JavaScript 情形 ， 可 以 到 第 15 章 查 找 关 于 Selenium 以 及 
直接 与 动态 网 站 交互 (包括 拖 放 动 作 ) 的 信息 。 














注 4: W3Techs,“Usage of JavaScript for Websites”. 
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第 12 章 


利用 API 抓 取 数 据 





JavaScript 曾经 是 网 络 候 虫 的 灾难 。 在 互联 网 的 悠久 历史 中 ， 你 通过 占 Web 服务 器 发 起 请 求 
所 获取 到 的 数据 ， 一 度 与 用 户 在 发 起 同样 的 请 求 后 在 Web 浏览 器 中 看 到 的 数据 是 一 样 的 。 

随 着 JavaScript 和 Ajax 内 容 的 生成 和 加 载 变 得 越 来 越 普 遍 ， 这 种 情况 变 得 越 来 越 少见 了 。 
在 第 11 章 ， 你 看 到 了 解决 该 问题 的 方法 之 一 : 利用 Selenium 让 浏 览 器 自动 加 载 网 站 并 获 
取 数 据 。 这 是 一 种 简便 的 方法 ， 并 且 在 大 多 数 时 候 都 是 有 效 的 。 








问题 是 ， 当 你 有 一 个 像 Selenium 一 样 强大 和 有 效 的 “利器 ”时 ， 每 一 个 网 页 抓 取 问 题 都 是 
小 表 一 碟 。 

















在 这 一 章 里 ， 你 将 完全 不 用 理会 JavaScript (没有 必要 运行 甚至 是 加 载 JavaScript) ， 直 接 获 
得 数据 源 : 生成 数据 的 API。 








12.1 _ API 概述 

尽管 关于 REST、GraphQL、JSON 和 XML API 的 图 书 、 演 讲 和 指南 不 胜 枚 举 ， 但 它们 都 
是 基于 一 个 简单 的 概念 。API 定义 了 允许 一 个 软件 与 男 一 个 软件 通信 的 标准 语法 ， 即 便 是 
这 两 个 软件 是 用 不 同 的 语言 编写 的 或 者 是 架构 不 同 。 











本 节 重 点 介绍 Web API (特别 是 允许 Web 服务 器 与 浏览 器 交流 的 API)， 并 用 API 这 个 词 
特 指 这 一 类 API。 但 是 你 也 需要 注意 ， 在 其 他 上 下 文中 ，API 也 会 被 用 作 一 个 通用 的 词 ， 
指 允 许 Java 程序 与 Python 程序 在 同一 台 机 器 上 通信 的 接口 。API 并 不 一 定 是 “ 跨 网 络 
的 "， 也 并 不 总 是 涉及 任何 Web 技术 。 
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Web API 经常 被 那些 使 用 成 熟 的 公开 服务 (public service) 的 开发 者 所 使 用 。 例 如 ，ESPN 
提供 了 获取 运动 员 人 信息、 比赛 分 数 等 信息 的 API (http://www.espn.com/apis/devcenter/docs/)。 
Google 的 开发 者 社区 也 提供 了 几 十 个 API， 用 于 获取 语言 翻译 、 分 析 、 地 理 位 置 等 信息 。 

















这 些 API 的 文档 通常 将 路 由 或 者 端点 (endpoint) 描述 为 你 可 以 请 求 的 URL， 而 变量 参数 
要 么 是 URL 路 径 ， 要 么 是 GET 请 求 的 参数 。 
例如 ， 以 下 示例 提供 了 pathparanm 作为 路 由 路 径 里 的 一 个 参数 : 
http: //example. com/the-api-route/pathparam 
而 以 下 示例 则 是 将 pathparan 作为 paraml 的 参数 值 : 


http://example.com/the-api-route?param1l=pathparam 


以 上 两 种 传递 变量 数据 给 API 的 方法 都 很 常用 ， 尽 管 像 很 多 计算 机 科学 领域 的 许多 主题 一 
样 ， 关 于 应 该 在 何 时 以 及 在 哪里 通过 路 径 或 者 参数 来 传递 这 些 变量 ， 也 曾经 发 生 过 激烈 的 





API 的 响应 通常 是 JSON 或 者 XML 格式 的 。 现 在 JSON 远 比 XML 流行 ,但 是 你 仍然 能 
到 一 些 XML 响应 。 很 多 API 允许 你 改变 响应 类 型 ， 通 常用 另外 一 个 参数 定义 你 希望 的 响 


以 下 是 JSON 格式 的 API 响应 示例 : 
{"user":{"id": 123, "name": "Ryan Mitchell", "city": "Boston"}} 
以 下 是 XML 格式 的 API 响应 示例 : 
<user><id>123</id><name>Ryan Mitchell</name><city>Boston</city></user> 


淘宝 卫 地 址 库 (http://ip.taobao.com) 提供 了 一 个 简单 易 用 的 API， 它 能 将 卫 地 址 翻译 成 
实际 的 物理 地 址 。 你 可 以 在 浏览 器 中 输入 下 面 的 网 址 ， 发 起 一 个 简单 的 API 请 求 : ， 








http://ip.taobao.com/service/getIpInfo.php?ip=50.78.253.58 


这 应 该 会 生成 下 面 的 结果 : 


{"code":0,"data":{"ip":"50.78.253.58","country":" 美 国 ","area":"","region": 
"康涅狄格 " 3 "city" : " 哈 特 福 德 " "county" : "xX" ; "isp" : " 康 卡 斯 特 " 有 "country_id" : 
"US","area_id":"","region_id":"US_107","city_id":"US_ 1049","county_id": 
"xx" "isp_id" : "30007"}} 








注 1: 这 个 API 把 全 地 址 解析 成 地 理 位 置 ， 本 章 后 面 还 会 用 到 这 个 API。 
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12.1.1 HTTP 方 法 和 API 


前 面 你 看 到 了 如 何 利用 API 向 服务 器 发 送 GET 以 获取 信息 。 利 用 HTTP 从 Web 服务 器 获取 
信息 有 4 种 方式 (或 方法 ) : 














GET 
POST 
PUT 
DELETE 


从 技术 上 看 ,不 止 存在 以 上 4 种 方式 (例如 HEAD、OPTIONS 和 CONNECT) ， 但 是 它们 在 API 
中 很 少 会 用 到 ， 你 也 不 可 能 会 碰 到 这 些 方式 。 大 多 数 API 仅 提供 了 以 上 4 种 方法 ， 甚 至 是 
这 4 种 方法 的 一 个 子 集 。 所 以 API 仅仅 使 用 GET 方法 ， 或 者 仅仅 使 用 GET 和 POST 方法 是 很 
常见 的 。 


你 在 浏览 器 地 址 栏 中 输入 网 址 访问 网 站 时 ， 使 用 的 就 是 GET。 当 你 访问 http://ip.taobao.com/ 
service/getIpInfo.php?ip=50.78.253.58 上 时， 就 会 使 用 GET 方法 。 可 以 想象 成 GET 在 说 :“ 喂 ， 
Web 服务 器 ， 请 按照 这 个 网 址 为 我 提供 信息 。 











从 定义 上 看 ，GET 请 求 对 服务 器 数据 库 的 信息 不 会 有 任何 影响 。 它 不 会 存储 任何 信息 ， 也 
不 会 修改 任何 信息 ， 只 是 读 取信 息 。 





当 你 填写 表单 或 提交 信息 到 Web 服务 器 的 后 端 程序 时 ， 使 用 的 就 是 PosT。 每 次 当 你 登录 
一 个 网 站 的 时 候 ， 就 是 通过 用 户 名 和 (希望 是 ) 加 密 的 密码 发 起 一 个 P0ST 请 求 。 如 果 你 用 
API 发 起 一 个 PosT 请 求 ， 相 当 于 说 “请 把 这 个 信息 保存 到 你 的 数据 库 里 ”。 












































PUT 在 与 网 站 交互 时 不 常用 ,但 是 在 API 里 面 有 时 会 用 到 。PUT 请 求 用 来 更 新 一 个 对 象 或 
信息 。 例 如 ，API 可 能 会 要 求 用 PosT 请 求 创 建新 用 户 ， 但 是 如 果 你 要 更 新 老 用 户 的 邮箱 地 
址 ， 就 要 用 PUT 请 求 了 。? 

DELETE 用 于 删除 对 象 。 例 如 ， 如 果 我 们 向 http://myapi.com/user/23 发 出 一 个 DELETE 请 求 ， 


就 会 删除 ID 号 是 23 的 用 户 。DELETE 方法 在 公共 API 里 面 不 常用 ， 公 共 API 主要 用 于 传播 
信息 或 者 允许 用 户 创建 或 发 布 信息 ， 而 不 是 让 用 户 删 掉 数 据 库 中 的 信息 。 



































与 GET 请 求 不 同 ， 除 了 你 请 求 数据 的 URL 或 路 由 以 外 ，P0ST、PUT 和 DELETE 请 求 还 允许 你 
在 请 求 体 中 发 送 其 他 信息 。 























注 2: 其 实 , 很 多 API 在 更 新 信息 的 时 候 都 是 用 POST 请 求 代替 PUT 请 求 。 究 竞 是 创建 一 个 新 实体 还 是 更 新 
一 个 旧 实 体 ， 通常 要 看 API 请 求 本 身 是 如 何 构 建 的 。 不 过 ， 掌 握 两 者 的 差异 还 是 有 好 处 的 ， 在 常用 
的 API 中 你 经 常会 遇 到 PUT 请 求 。 
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和 你 从 Web 服务 器 接收 到 的 响应 一 样 ， 请 求 体 中 的 这 个 数据 通常 也 是 JSON 格式 的 ， 有 时 
是 XML 格式 的 ， 而 且 数 据 的 格式 是 在 API 的 语法 中 定义 好 的 。 例 如 ， 如 果 你 用 一 个 API 
创建 博客 文章 的 评论 ， 可 能 会 发 送 一 个 PUT 请 求 到 : 




















http://example.com/comments?post=123 
请 求 体 如 下 : 


{"title": "Great post about ApPIs!", "body": "Very informative. Really helped me 
out with a tricky technical challenge I was facing. Thanks for taking the time 
to write such a detailed blog post about PUT requests!", "author": {"name": "Ryan 
Mitchell", "website": "http://pythonscraping.com", "company": "0'Reilly Media"}} 


注意 ， 这 里 博客 文章 的 ID (123) 作为 参数 传人 URL， 即 你 做 出 的 新 评论 的 内 容 通 过 请 求 
体 传送 。 参 数 和 数据 可 以 在 参数 变量 和 请 求 体 中 同时 传送 。 而 需要 哪些 参数 以 及 在 哪里 传 
送 依然 是 由 API 的 语法 决定 的 。 


12.1.2 更 多 关于 API 响 应 的 介绍 

如 你 在 本 章 开头 的 淘宝 IP 地 址 库 示 例 中 所 见 ，API 的 一 个 重要 特性 是 会 返回 格式 良好 的 响 
应 。 最 常见 的 响应 格式 是 XML (eXtensible Markup Language， 可 扩展 标记 语言 ) 和 JSON 
(JavaScript Object Notation ，JavaScript 对 象 表 示 法 )。 











这 几 年 ，JSON 比 XML 受 欢迎 得 多 ， 主 要 有 两 个 原因 。 首 先 ，JSON 文件 通常 比 设计 良好 
的 XML 文件 小 。 比 如 下 面 的 XML 数据 用 了 98 个 字符 : 

















<user><firstname>Ryan</firstname><lastname>Mitchell</lastname><username>Kludgist 
</username></user> 





同样 的 JSON 格式 的 数据 只 需 73 个 字符 ， 比 表述 同样 内 容 的 XML 文件 要 小 36%: 





{"user":{"firstname":"Ryan","lastname":"Mitchell","username":"Kludgist"}} 


当然 ， 有 人 可 能 会 说 ，XML 也 可 以 表示 成 这 种 形式 : 





<user firstname="ryan" lastname="mitchell" username="Kludgist"></user> 














不 过 这 么 做 并 不 好 ， 因 为 它 不 支持 深层 颈 和 数据。 而且 它 仍然 需要 71 个 字符 ， 和 JSON 差 
不 多 。 


JSON 格式 比 XML 更 受 欢 迎 的 另 一 个 原因 是 Web 技术 的 改变 。 过 去 ， 服 务 器 端 用 PHP 
和 .NET 这些 程序 作为 API 的 接收 端 。 现 在 ， 服 务 器 端 也 会 用 一 些 JavaScript 框架 作为 API 
的 发 送 和 接收 端 ， 比 如 Angular 或 Backbone 等 。 虽 然 服 务 器 端的 技术 无 法 预测 它们 即将 收 
到 的 数据 格式 ， 但 是 像 Backbone 之 类 的 JavaScript 库 处 理 JSON 要 比 处 理 XML 简单 。 
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尽管 通常 认为 API 的 响应 要 么 是 XML 格式 要 么 是 JSON 格式 ,但 是 其 他 任何 格式 都 是 可 
能 的 。API 的 响应 类 型 受 限 于 创建 它 的 程序 员 的 想象 力 。CSV 是 另外 一 种 典型 的 响应 输 
出 。 一 些 API 其 至 被 设计 用 来 生成 文件 输出 。 一 个 请 求 可 能 是 要 求 服务 器 生成 一 幅 带 有 特 
定 文本 的 图 像 ， 或 者 请 求 特定 的 XLSX 或 PDF 文件 。 
































一 些 API 完全 没有 响应 。 例 如 ， 如 果 你 向 服务 器 请 求生 成 一 个 新 的 博文 评论 ， 它 可 能 仅 返 
回 一 个 HITP 响应 代码 200， 意 思 是 :“ 我 发 布 了 评论 ， 一 切 都 很 好 ! ”其 他 API 可 能 返回 
一 个 如 下 所 示 的 最 小 响应 : 








{"success": true} 
如 果 发 生 了 错误 ， 你 可 能 会 得 到 如 下 响应 : 
{"error": {"message": "Something super bad happened"}} 


如 果 API 没有 很 好 地 进行 配置 ， 你 得 到 的 可 能 是 一 个 不 可 解析 的 栈 跟踪 (stack trace) 或 者 
一 些 普通 的 英文 文本 。 当 向 API 发 出 一 个 请 求 时 ， 明 智 的 做 法 通常 是 首先 检查 你 得 到 的 响 
应 是 JSON 格式 (或 者 是 XML、CSV 或 其 他 你 期 望 的 格式 )。 


12.2 ”解析 JSON 数 据 


在 本 章 中 ， 我 们 介绍 了 许多 不 同类 型 的 API 以 及 它们 的 使 用 方法 ， 也 介绍 了 这 些 API 返回 
的 JSON 格式 的 响应 。 现 在 让 我 们 看 看 如 何 解 析 并 使 用 这 些 信息 。 


本 章 开始 的 时 候 ， 我 举 过 淘宝 IP 地 址 库 网 站 查 IP 的 例子 ， 它 可 以 把 卫 地 址 解析 转换 成 地 
理 位 置 ; 












































http://ip.taobao.com/service/getIpInfo.php?ip=50.78.253.58 
我 可 以 获取 这 个 请 求 的 响应 输出 ， 然 后 用 Python 的 JSON 解析 函数 来 解码 : 


import json 
fromurLLib .requesttimporturLopen 


defgetCountry(ipAddress): 
response = urlopen("http://ip.taobao.com/service/getIpInfo.php?ip=" 
+ipAddress).read().decode('utf-8') 
responseJson=json. loads(response) 
returnresponseJson.get("data")["country"] 


print(getCountry("50.78.253.58")) 


这 段 代 码 可 以 打印 出 卫 地 址 为 50.78.253.58 的 国家 名 称 。 
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这 里 用 的 JSON 解析 库 是 Python 标准 库 的 一 部 分 。 只 需 在 代码 开头 写 上 import json， 你 
就 可 以 使 用 它 了 ! 不 同 于 那些 先 将 JSON 解析 成 一 种 特殊 的 JSON 对 象 或 JSON 布点 的 语 
言 ，Python 使 用 了 一 种 更 加 灵活 的 方式 ， 将 JSON 对 象 转换 成 字典 ， 将 JSON 数组 转换 成 
列表 ， 将 JSON 字符 串 转换 成 Python 字符 串 ， 等 等 。 通 过 这 种 方式 ， 获 取 和 操作 JSON 中 
存储 的 值 就 变 得 非常 简单 了 。 


下 面 的 例子 演示 了 如 何 使 用 Python 的 JSON 解析 库 ， 处 理 JSON 字符 串 中 可 能 出 现 的 不 同 














import json 


jsonString = '{"arrayOfNums":[{"number":0},{"number":1},{"number":2}], 
"arrayOfFruits":[{"fruit":"apple"},{"fruit":"banana"}, 
{"fruit":"pear"}]}' 
json0bj = json.Loads(jsonString) 


print(json0bj.get('arrayOfNums ' ) ) 
print(json0bj.get('arrayOfNums' )[1]) 
print(jsonObj.get('arrayOfNums')[1].get('number') + 
jsonObj .get('arrayOfNums')[2].get('number')) 
print(jsonObj.get('arrayOfFruits')[2].get('fruit')) 


输出 的 结果 是 : 


[{'number': 0}, {'number': 1}, {'number': 2}] 
{'number': 1} 

3 

pear 


第 一 行 是 一 个 词典 对 象 列 表 ， 第 二 行 是 一 个 词典 对 象 ， 第 三 行 是 一 个 整数 (第 一 行 词典 列 
表 中 整数 的 和 )， 第 四 行 是 一 个 字符 串 。 


12.3 无 文档 的 API 
到 目前 为 止 ， 本 章 只 讨论 了 有 文档 的 API。 它 们 的 开发 者 希望 它们 被 公众 所 使 用 ， 并 发 布 
了 关于 API 的 信息 ， 并 且 假 定 这 些 API 会 被 其 他 开发 者 使 用 。 但 是 大 多 数 API 是 没有 发 布 
任何 文档 的 。 














但 是 为 什么 你 会 创建 一 个 API 而 不 提供 公开 文档 呢 ? 正如 本 章 开 头 提 到 的 ， 这 一 切 都 与 
JavaScript 有 关 。 





通常 ， 在 用 户 请 求 一 个 网 页 时 ,动态 网 站 的 Web 服务 器 会 做 以 下 儿 件 事情 : 
































。 处 理 来 自 请 求 网 站 页 面 的 用 户 的 GET 请 求 
。 从 数据 库 检 索 页 面 需要 呈现 的 数据 
。 按照 HTML 模板 组 织 页 面 数 据 
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。 发 送 带 格式 的 HTML 给 用 户 





由 于 JavaScript 框架 变 得 越 来 越 普遍 ， 很 多 HTML 创建 任务 从 原来 的 由 服务 器 处 理 变 成 了 
由 浏览 器 处 理 。 服 务 器 可 能 给 用 户 浏览 器 发 送 一 个 硬 编码 的 HTML 模板 ， 但 是 还 需要 单独 
的 Ajax 请 求 来 加 载 内 容 ， 并 将 这 些 内 容 放 到 HTML 模板 中 正确 的 位 置 (slot)。 所 有 这 些 
都 发 生 在 浏览 器 / 客户 端 上 。 











最 初 ， 上 述 机 制 对 于 网 络 谎 虫 来 说 是 一 个 麻烦 的 问题 。 过 去 ， 疏 虫 请 求 一 个 HTML 页 面 
时 ， 获 取 到 的 就 是 原封 不 动 的 HIML 页 面 ， 所 有 的 内 容 都 在 HTML 页 面 上 。 而 现在 ， 疏 
虫 获 得 的 是 一 个 不 带 有 任何 内 容 的 HTML 模板 。 


Selenium 就 是 用 来 解决 这 个 问题 的 。 现 在 ， 程 序 员 的 网 络 扑 虫 可 以 变 成 浏览 器 ， 请 求 
HTML 模板 ， 执 行 任意 的 JavaScript， 人 允许 加 载 所 有 的 数据 ， 然 后 再 抓 取 网 页 的 数据 。 由 
于 HIML 都 被 加 载 了 ， 现 在 基本 上 只 剩 下 之 前 已 经 解决 了 的 问题 一 一 解析 和 格式 化 已 有 
HTML 的 问题 。 















































然而 ， 由 于 整个 内 容 管 理 系 统 (曾经 只 位 于 Web 服务 器 中 ) 基本 上 已 经 移 到 了 浏览 器 端 ， 
连 最 简单 的 网 站 都 可 以 激增 至 几 兆 字 节 的 内 容 和 十 几 个 HTTP 请 求 。 


此 外 ， 当 使 用 Selenium 时 ， 用 户 不 需要 的 “额外 信息 ”也 被 加 载 了 。 调 用 跟踪 程序 、 加 载 
侧 边 栏 广告 、 调 用 侧 边栏 广告 的 跟踪 程序 。 图 像 、CSS、 第 三 方 的 字体 数据 一 一 所 有 这 些 
数据 都 被 加 载 了 。 当 你 使 用 浏览 器 浏览 网 站 的 时 候 ， 这 些 内 容 可 能 看 起 来 很 好 ， 但 是 当 你 
编写 一 个 需要 快速 移动 、 抓 取 特 定数 据 并 尽 可 能 对 Web 服务 器 造成 较 小 负担 的 候 虫 的 时 
候 ， 这 可 能 会 加 载 比 你 实际 所 需 多 上 百倍 的 数据 。 

但 是 对 于 JavaScript、Ajax 和 现代 化 Web 来 说 仍 有 一 线 希望 : 因为 服务 器 不 再 将 数据 处 理 
成 HTML 格式 ， 所 以 它们 通常 作为 数据 库 本 身 的 一 个 弱 包 装 器 。 该 弱 包 装 器 简单 地 从 数据 
库 中 抽取 数据 ， 并 通过 一 个 API 将 数据 返回 给 页 面 。 
当然 ， 这 些 API 并 未 打算 供 除 网 页 本 身 以 外 的 任何 人 或 者 任何 事 使 用 ， 因 此 开发 者 未 为 这 
些 API 提供 文档 ， 并 且 假 设 (或 者 说 希望 ) 没有 人 会 发 现 这 些 API。 但 是 这 些 API 的 确 是 
存在 的 。 


例如 , 《纽约 时 报 》 网 站 通过 JSON 加 载 所 有 的 搜索 结果 。 如 有 果 你 访问 以 下 链接 : 



































下 


























https://query.nytimes.com/search/sitesearch/#/python 





它 呈 现 的 是 关于 搜索 词 “python” 的 最 新 文章 。 如 果 你 用 urllib 或 Request 库 抓 取 这 个 页 
看 ， 不 会 找到 任何 搜索 结果 。 这 些 结果 是 通过 一 个 API 调用 单独 加 载 的 : 





















































https://query.nytimes.com/svc/add/v1/sitesearch.json 
?q=python&spotLight=true&facet=true 
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如 果 你 用 Selenium 加 载 该 页 面 ， 将 发 起 100 次 请 求 并 在 每 次 搜索 时 传输 600~700KB 的 数 
据 。 直 接 使 用 API 的 话 ， 你 只 需 发 起 一 次 请 求 ， 并 且 只 传输 你 所 需要 的 大 约 60KB 的 格式 
良好 的 数据 。 


12.3.1 查找 无 文档 的 API 
你 在 前 面 的 章节 使 用 Chrome 检查 器 查看 过 HTML 页 面 的 内 容 ， 现 在 你 要 用 它 来 实现 不 同 
的 目的 : 查看 用 于 构建 页 面 的 调用 的 请 求 和 响应 。 












































为 此 ， 打 开 Chrome 检查 器 窗口 并 点 击 网 络 选 项 卡 ， 如 图 12-1 所 示 。 











[R 品 Elements Console Sources Network Performance Memory Application Security Audits Cookies 





二 | 了 View 汪 二 Preserve log 目 Disable cache Offline No throttling Y 
Filter Regex 日 HidedataURLs OW XHR JS css Img Media Font Doc WS Manifest Other 


| 2000ms 4000ms 6000ms 8000ms 10000ms 12000ms 14000 ms 16000 ms 


Name Status Type Initiator Size Time Waterfall 
L wwworeilycom 200 document Www.oreilly.com/ 10.5 KB 66ms 1 | 
[| norm-layout-170601.css 200 stylesheet {index) 57KB 25ms|| 
[DD norm-home-170525.css 200 stylesheet {index) 37KB 41ms| 1 
jqueryminjs 200 Script {index) 33.2KB 71ms | 站 
| scodejjs 200 script index) 18.4 KB 115ms | 省 
_| jquery.mobile.touch_only.min.js 200 script findex) 31KB 25ms | 中 
| | jphp?a=27087&u=https%3A%2F%2Fwww.oreilycom%2F&r=0.… (failed) index):102 oB 109ms 
门 norm-home-170224js 200 script (index) 14KB 21ms | 
orm-soamh-har-17n221ie 2n0 tindow) gaaR 17me | 二 


和 errint 
37 requests | 1.0 MB transferred | Finish: 4.15s | DOMContentLoaded: 365 ms | Load:112s 











图 12-1: Chrome 网 络 检查 器 工具 展示 了 浏览 器 所 发 起 的 和 接收 的 所 有 调用 





注意 ， 你 需要 在 页 面 加 载 前 就 打开 这 个 窗口 。 当 关闭 时 ， 它 不 会 追踪 网 络 调用 。 
































当 页 面 正在 加 载 时 ， 每 当 浏 览 器 接收 到 Web 服务 器 返回 的 页 面 泻 染 信息 上 时， 你 将 会 实时 看 
到 一 条 线 。 这 可 能 也 包括 一 次 API 调用 。 











查找 无 文档 的 API 需要 做 一 些 侦查 工作 ( 若 不 想 做 此 侦查 工作 ， 请 查看 12.3.3 节 )， 特 别 
是 有 很 多 网 络 调用 的 大 型 网 站 。 通 常 来 说 ， 你 看 到 它 就 会 知道 它 是 无 文档 的 API。 


API 调用 有 几 个 特征 ， 这 些 特征 对 于 在 网 络 调用 列表 中 找到 它们 非常 有 用 。 





。 它们 通常 包含 JSON 或 XML。 你 可 以 利用 搜索 /过滤 字 段 过 滤 请 求 列表 。 

。 利用 GET 请 求 ，URL 中 会 包含 一 个 传递 给 它们 的 参数 。 如 果 你 要 寻找 一 个 返回 搜索 结 

果 或 者 加 载 特定 页 面 数据 的 API 调用 ， 这 将 非常 有 用 。 只 需 用 你 使 用 的 搜索 词 、 页 面 
ID 或 者 其 他 的 识别 信息 ， 过 让 结果 即 可 。 

。 它们 通常 是 XHR 类 型 的 。 


API 可 能 并 不 总 是 很 明显 ， 特 别 是 在 带 有 很 多 特征 (在 加 载 单 个 页 面 时 可 能 会 调用 上 百 次 ) 
的 大 型 网 站 中 。 但 是 通过 一 些 练习 ， 在 干草 堆 中 发 现 一 根 针 会 容易 得 多 。 



























































利用 API 抓 取 数 据 | 159 


12.3.2 ”记录 未 被 记录 的 API 
在 你 发 现 一 次 API 调用 后 ， 在 其 种 程度 上 来 说 将 其 记录 下 来 是 非常 有 用 的 ， 你 的 爬虫 严重 
依赖 于 这 个 调用 时 尤其 如 此 。 你 可 能 需要 在 网 站 上 加 载 多 个 页 面 ， 在 检查 器 控制 台 的 网 络 
选项 卡 中 筛选 出 目标 API 调用 。 这 样 做 之 后 ， 你 可 以 看 到 这 个 调用 在 不 同 页 面 的 变化 ， 并 
且 识 别 出 该 调用 接收 的 字段 和 返回 的 字段 。 























每 个 API 调用 都 可 以 通过 留心 以 下 几 个 字段 识别 和 记录 下 来 : 


。 使 用 的 HTTP 方法 
。 输入 

一 路 径 参 数 

一 请 求 头 (包括 cookie ) 

一 正文 内 容 (对 于 PUT 和 POST 调用 
。 输出 

一 响应 头 (包括 cookie 集合 ) 

一 ”响应 正文 类 型 

一 ”响应 正文 字段 


12.3.3 ”自动 查找 和 记录 API 

查找 和 记录 API 看 起 来 是 一 项 烦琐 和 偏 算 法 的 工作 。 确 实 是 这 样 。 而 且 有 些 网 站 可 能 尝试 
混 消 浏览 器 是 如 何 获 得 数据 的 ， 这 就 使 得 这 个 任务 变 得 更 加 困难 ， 查 找 和 记录 API 主要 是 
一 个 程序 性 任务 。 





一 
































我 在 https://github.com/REMitchell/apiscraper 创建 了 一 个 GitHub 仓库 ， 试 图 帮助 完成 其 中 
部 分 烦琐 的 工作 。 





























该 工具 会 使 用 Selenium、ChromeDriver 和 一 个 叫 作 BrowserMob Proxy 的 库 来 加 载 页面 ， 
在 一 个 域内 抓 取 网 页 ， 分 析 页 面 加 载 过 程 中 的 网 络 流 量 ， 并 将 这 些 请 求 组 织 成 可 读 的 API 
调用 。 


为 了 让 这 个 项 目 运转 起 来 需要 几 个 部 件 。 首 先 就 是 该 软件 本 身 。 

















克隆 GitHub 项 目 apiscraper。 克 隆 项 目 应 该 包含 以 下 文件 。 


apicall.py 
它 包含 定义 一 个 API 调用 的 属性 (路径 、 参 数 等 )， 以 及 确定 两 个 API 调用 是 否 相 同 的 
逻辑 。 





apiFinder.py 
它 是 一 个 主 抓 取 类 。 被 webservice.py 和 consoleservice.py 用 来 实现 查找 API 的 过 程 。 
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browser.py 
它 仅 有 3 个 方法 ，initialize、get 和 close,， 但 是 具有 一 项 比较 复杂 的 功能 ， 即 将 
BrowserMob Proxy 和 Selenium 捆绑 在 一 起 。 深 动 页 面 以 确保 整个 页 面 都 被 加 载 ， 将 
HTTP 存档 (HAR) 文件 保存 到 合适 的 位 置 以 便 后 续 处 理 。 























consoleservice.py 
它 处 理 来 自控 制 台 的 命令 ,并且 负责 主 APIFinder 类 。 











harParser.py 
它 解析 HAR 文件 并 抽取 API 调用 。 





html_template.html 
它 提 供 在 浏览 器 中 显示 API 调用 的 一 个 模板 。 





README.md 
Git 的 readme 页 面 。 


从 https://bmp.lightbody.net/ 下 载 BrowserMob Proxy 的 二 进 制 文件 ， 并 将 其 解压 缩 文件 放 到 
apiscraper 项 目的 路 径 下 。 


在 撰写 本 书 之 时 BrowserMob Proxy 的 最 新 版 本 是 2.1.4， 因 此 我 们 的 代码 假定 二 进 制 文件 
放 在 项 目 根 路 径 下 的 browsermob-proxy-2.1.4/bin/browsermob-proxy 位 置 。 如 果 有 任何 变 
化 ， 你 可 以 在 运行 时 更 改 路 径 ， 或 者 更 简单 的 办 法 是 修改 apiFinderpy 中 对 应 的 代码 。 


下 载 ChromeDriver， 并 将 其 放 在 apiscraper 项 目 路 径 下 。 



































你 还 需要 安装 以 下 Python 库 : 


。 tldextract 
。 selenium 


。 browsermob-proxy 

当 以 上 准备 工作 都 完成 以 后 ， 你 可 以 开始 搜集 API 调用 了 。 输 入 : 
$ python consoleservice.py -h 

这 会 为 你 提供 一 系列 的 选项 来 开始 你 的 搜集 工作 : 


Usage: consoleservice.py [-h] [-u [VU]] [-d [D]] [-s [S]] [-c [Cc]] [-i [1I]] 
[--p] 


optional arguments: 


-h, --help show this help message and exit 
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-yu [U] 


-d [D] 


Target URL. If not provided, target directory will be scanned 
for har files. 


Target directory (default is "hars"). If URL is provided, 
directory will store har files. If URL is not provided, 


directory will be scanned. 


Search term 


File containing JSON formatted cookies to set in driver (with 
target URL only) 


Count of pages to crawl (with target URL only) 


Flag, remove unnecessary parameters (may dramatically increase 
runtime) 




















你 可 以 搜索 针对 单个 搜索 词 的 单个 页 面 的 API 调用 。 例 如， 你 可 以 搜索 返回 产品 数据 的 
http://target.com 页 面 的 API: 


上 述 


利 月 





$ python consoleservice.py -U https://www.target.com/p/rogue-one-a-star-wars-\ 
story-blu-ray-dvd-digital-3-disc/-/A-52030319 -s "Rogue One: A Star Wars Story" 





命令 返回 的 信息 包括 一 个 URL 以 及 一 个 返回 页 面 产品 数据 的 API: 











~ 





URL: https://redsky.target.com/v2/pdp/tcin/52030319 


METHOD: GET 


AVG RESPONSE SIZE: 34834 

SEARCH TERM CONTEXT: c":"786936852318","product_description":{"title": 
"Rogue One: A Star Wars Story (Blu-ray + DVD + Digital) 3 Disc", 
"long_description":... 





-标志 位 ， 可 以 从 提供 的 初始 URL 开始 抓 取 多 个 页 面 (默认 情况 下 只 有 一 个 页 面 )。 

















这 对 于 搜索 全 网 流量 中 特定 的 关键 词 ， 或 者 通过 省 略 -s 搜索 词 标 志 位 ， 抓 取 每 个 页 面 加 


载 时 的 所 有 API 流量 非常 有 用 。 





所 有 的 抓 取 数 据 存储 在 一 个 HAR 文件 中 ， 默 认 放 在 项 目 路 径 下 的 /har 文件 夹 中 ， 而 该 路 
径 可 以 通过 -d 标志 位 进行 修改 。 


如 果 疫 有 提供 URL， 你 可 以 传人 包含 已 抓 取 的 HAR 文件 的 路 径 进行 查找 和 分 析 。 














这 个 项 目 还 提供 了 很 多 其 他 功能 ， 包 括 : 








去 除非 必需 的 参数 (去 除 GET 或 P0ST 参数 ， 这 些 参数 并 不 会 影响 API 调用 的 返回 值 ) ; 


多 种 API 输 日 








时 格式 (命令 行 、HTML、JSON ) ， 
区 分 指示 单独 API 路 由 的 路 径 参 数 和 只 是 作为 同一 个 API 路 由 的 GET 参数 的 路 径 参 数 。 





进一步 的 发 展 规划 已 做 好 ， 我 和 其 他 人 会 继续 用 它 进行 网 页 抓 取 和 API 收集 。 





12.4 API 与 其 他 数据 源 结合 


虽然 ， 许 多 现 
但 是 我 觉得 这 
别人 数据 库 里 
一 种 新 颖 的 方 


代 Web 应 用 存在 的 理由 就 是 抓 取 现 有 的 数据 ， 再 用 更 好 看 的 形式 展现 出 来 ， 
些 应 用 没什么 意义 。 如 果 你 用 API 作为 唯一 的 数据 产 ， 那 么 你 最 多 就 是 复制 
的 数据 ， 而 且 这 些 数据 基本 上 都 是 已 经 发 表 过 的 。 真正 有 意思 的 事情 ， 是 以 
式 将 两 个 或 多 个 数据 产 组 合 起 来 ， 或 者 把 API 作为 一 种 工具 ， 从 全 新 的 视角 




















对 抓 取 到 的 数据 进行 解释 。 














如 果 你 经 常用 
用 户 先 登录 维 
行 编 辑 ， 他 们 





下 面 介绍 如 何 把 API 和 网 页 抓 取 结合 起 来 : 看 看 维基 百科 的 贡献 者 们 大 都 在 哪里 。 





维基 百科 ， 可 能 会 注意 到 词 条 的 编辑 历史 页 面 ， 里 面 是 一 列 编辑 记录 。 如 果 
基 百 科 再 编辑 词 条 ， 他 们 的 用 户 名 就 会 显示 出 来 。 如 果 不 先 登录 就 对 词 条 进 
的 IP 地址 就 会 显示 在 编辑 历史 中 ， 如 图 12-2 所 示 。 






































广 Show revision history 


Python (programming language): Revision history 


View logs for this page (view filter log) 





From year (and earlier): 2019 From month (and earlier): | al $| Tag filter: Show 








External tools: Find addition/removal * Find edits by user . Page statistics +. Pageviews * Fix dead links 
For any version listed below, click on its date to view it, For more help, see Help:Page history and Help:Edit summary. (cur) = d 
m = minor edit 一 = section edit, «~— = automatic edit summary 
(newest | oldest) View (newer 50 | older 50) (20 | 50 | 100 | 250 | 500) 
Compare selected revisions 
se。 (cur|prev) ©@ 13:29, 4 March 2019 Tambora1815 (talk | contribs) . . (98,617 bytes) (0).. (Stable version 2.7.16 (3 March 
{curlprev)@ 12:01, 3 March 2019 MichaelMaggs (talk | contribs) . . (98,617 bytes) (+71) . . (importing Wikidata short de 


se (cur | prev) 09:59, 3 March 2019 |46.242.8.141(talk) . . (98,546 bytes) (-5) . . (undo) 


» (cur | prev) 09:55, 3 March 2019 46.242.8.14 (talk) . . (98,551 bytes) (+1) . . (undo) 








图 12-2: 维基 百科 Python 词 条 的 编辑 历史 页 面 的 匿名 编辑 者 的 IP 地 址 


上 图 中 标注 的 卫 地 址 是 46.242.8.14。 写 作 本 书 时 ， 利 用 淘宝 人 P 地 址 库 的 API， 可 以 查 出 
这 个 卫 地 址 的 地 理 位 置 (IP 地 址 有 时 会 改变 地 理 位 置 ) 是 俄罗斯 的 莫斯科 市 。 











一 个 这 样 的 卫 地 址 并 没什么 意义 ， 但 是 如 果 我 们 可 以 收集 大 量 维基 百科 编辑 者 的 地 理 数 据 
呢 ? 几 年 前 我 做 过 这 件 事 ， 当 时 用 Google 的 地 理 图 形 库 (Geochart ) 做 了 一 个 显示 维基 百 
科 英 文 版 的 编辑 者 所 在 位 置 的 可 视图 ， 后 来 又 做 了 其 他 语言 的 版 本 。 


首先 创建 一 个 抓 取 维基 百科 的 基本 程序 ， 寻 找 编辑 历史 页 面 ， 然 后 把 其 中 的 卫 地 址 找 出 


来 ， 这 并 不 难 























。 只 要 对 第 3 章 的 代码 做 些 修改 就 可 以 ， 代 码 如 下 所 示 。 


from urllib.request import urlopen 


from bs4 


import BeautifulSoup 


import json 
import datetime 
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这 个 程序 包含 两 个 函数 :getLinks (第 3 章 里 用 过 ) 和 新 的 函数 getHistoryIPs， 后 者 搜索 
所 有 class 属性 为 mw-anonuserLink 的 链接 内 容 ( 


import random 
import re 


random.seed(datetime.datetime.now()) 


def 


def 


getLinks(articleUrl): 

html = urlopen('http://en.wikipedia.org{}'.format(articleUrl)) 

bs = BeautifulSoup(html, 'html.parser') 

return bs.find('div', {'id':'bodyContent'}).findAll('a', 
href=re.compile( '^(/wiki/)((?!:).)*$')) 


getHistoryIPs(pageUrL ) : 

# 编辑 历史 页 面 的 URL 链 接 格 式 是 : 

# http://en.wikipedia.org/w/index.php?title=Title in URL&action=history 

pageUrL = pageUrl.replace('/wiki/', '') 

historyUrl = 'http://en.wikipedia.org/w/index.php?title={}&action=history' 
.format(pageUrl) 

print('history url is: {}'.format(historyUrl)) 

htmL = urlopen(historyUrl) 

bs = BeautifulSoup(html, "htmL.parser ') 

# 找 出 class 属 性 是 "mw-userlink mw-anonuserLink" 的 链接 

# 它们 用 IP 地 址 代替 用 户 名 

ipAddresses = bs.findAll('a', {'class':'mw-anonuserlink'}) 

addressList = set() 

for ipAddress in ipAddresses: 
addressList.add(ipAddress.get_ text()) 

return addressList 








Links = getLinks('/wiki/Python_(programming_language)') 


while(len(links) > 0): 


for link in links: 
print('-'*20) 
historyIPs = getHistoryIPs(link.attrs['href']) 
for historyIP in historyIPs: 
print(historyIP) 


newLink = links[random.randint(0, len(links)-1)].attrs['href'] 
links = getLinks(newLink) 











回 一 个 链接 列表 。 


下 


的 编辑 历史 。 然 后 ， 随 机 选择 一 个 词 条 
编辑 历史 。 重 复 这 个 过 程 ， 直 到 某 个 页 面 不 包含 其 他 维基 词 条 的 链接 为 止 。 





现在 ， 我 们 获得 了 编辑 历史 的 PP 地 址 数据 ， 把 它们 与 上 一 市 的 getCountry 函数 结合 起 来 ， 
就 可 以 查询 IP 地 址 所 属 的 国家 了 。 我 对 getCountry 国 数 做 了 一 点 儿 修改 ， 处 至 














看 的 代码 还 用 了 一 种 随机 的 (不 过 对 这 个 示例 是 有 效 的 ) 搜索 模式 来 查找 词 条 的 编辑 历 
史 。 首 先 获 取 起 始 词 条 (示例 中 是 Python programming language 词 条 ) 链接 到 的 所 有 词 条 
芷 为 起 始点 ， 再 获取 这 个 页 面 链接 到 的 所 有 词 条 的 


























匿名 用 户 的 IP 地 址 ， 而 不 是 用 户 名 )， 返 


了 会 引起 


“404 Not Found” 异 常 的 无 效 或 错误 的 全 地 址 〈( 比 如， 写作 本 书 时 ， 淘 宝 卫 地 址 库 不 能 查 
询 了 Pv6 地 址 ， 这 可 能 会 引起 404 错误 ) : 








def getCountry(ipAddress): 

try: 

response = urlopen('http://ip.taobao.com/service/getIpInfo.php?ip={}" 
.format(ipAddress)).read().decode('utf-8') 

responseJson = json.loads(response) 
country = responseJson.get('data')['country'] 

except: 
returnNone 

else: 
return country 


Links = getLinks('/wiki/Python_(programming_language)') 


while(len(links) > 0): 
for Link in links: 
print('-'*20) 
historyIPs = getHistoryIPs(link.attrs["href"]) 
for historyIP in historyIPs: 
country = getCountry(historyIP) 
if country is not None: 
print('{} is from {}'.format(historyIP, country)) 


newLink = links[random.randint(0, len(links)-1)].attrs['href'] 
links = getLinks(newLink) 





下 面 是 部 分 输出 结果 : 











history urlis: http://en.wikipedia.org/w/index.php?title=Programming_ 
paradigm&action=history 

117.221.183.123isfrom 印 度 

68.151.180.83isfrom 加 拿 大 

129.7.106.20isfrom 美 国 
49.197.5.59isfrom 谢 大 利 亚 
31.223.170.65isfrom 停 兰 
174.254.128.149isfrom 美 国 
192.159.69.162isfrom 美 国 
192.117.105.47isfrom 以 色 列 
213.133.47.254isfrom 和 停 兰 


12.5 再说 一 点 API 


本 章 介绍 了 几 种 常见 的 利用 现代 API 获取 网 络 数据 的 方式 ， 以 及 如 何 用 这 些 API 构建 快 
速 且 强大 的 网 络 肘 虫 。 如 果 你 要 构建 API 而 不 仅仅 是 使 用 API， 或 者 如 果 你 希望 更 多 地 了 
解 API 的 构建 和 语法 ， 我 推荐 你 阅读 Leonard Richardson、Mike Amundsen 和 Sam Ruby 合 
著 的 RESTful Web 4PIs。 该 书 针对 Web API 的 用 法 提供 了 非常 全 面 的 理论 介绍 与 实践 指导 。 
另外 ，Mike Amundsen 的 精彩 视频 教学 课程 “Designing APIs for the Web”， 也 可 以 教 你 创 
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nm 


自己 的 API。 如 果 你 想 用 一 种 便捷 的 格式 分 享 自己 抓 取 的 数据 ， 他 的 视频 非常 有 用 。 


尽管 有 些 人 可 能 抱怨 当前 JavaScript 和 动态 网 站 盛行 ， 使 得 传统 的 “ 抓 取 并 解析 HTML 页 
再 ”的 方法 过 时 了 ， 我 个 人 却 非 常 欢迎 这 种 新 趋势 。 动 态 网 站 更 多 地 依赖 有 JSON 格式 的 
HTML 文件 ， 而 较 少 依赖 人 工 编写 的 HIML， 这 为 所 有 希望 获得 简洁 且 格 式 友好 的 数据 的 
人 提供 了 福利 。 





























Web 不 再 是 偶尔 带 有 一 些 多 媒体 和 CSS 样式 的 HTML 页 面 集合 ， 而 是 上 百 种 文件 类 型 和 
数据 格式 的 集合 ， 通 过 浏览 器 一 次 进行 上 百 次 高 速 数据 传输 来 加 载 你 需要 的 所 有 页 面 内 
容 。 真 正 的 技巧 通常 是 透彻 地 认识 你 眼前 的 网 页 ， 并 直接 从 数据 源 获取 数据 。 
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第 13 章 


图 像 识 别 与 文字 处 理 





从 Google 的 无 人 驾驶 汽车 到 可 以 识别 假 钞 的 自动 售卖 机 ， 机 器 视觉 是 应 用 广泛 且 具 有 深 
远 影响 的 一 大 领域 。 这 一 章 将 重点 介绍 机 器 视觉 的 一 个 分 支 一 一 文字 识别 ， 介 绍 如 何 用 一 
些 Python 库 来 识别 和 使 用 基于 文字 的 图 像 。 








当 你 不 想 让 自己 的 文字 被 网 络 机 器 人 抓 取 时 ， 把 文字 做 成 图 片 放 在 网 页 上 是 常用 的 办 法 。 
在 联系 人 表单 里 经 常 可 以 看 到 一 个 邮箱 地 址 被 部 分 或 全 部 转换 成 图 片 。 人 们 可 能 觉察 不 出 
明显 的 差异 ， 但 是 机 器 人 阅读 这 些 图 片 会 非常 困难 ， 这 种 方法 可 以 防止 多 数 垃圾 邮件 发 送 
器 轻易 地 获取 你 的 邮箱 地 址 。 

















当然 ， 验 证 码 (CAPTCHA) 就 利用 了 这 种 人 类 用 户 可 以 正常 读 取 但 是 大 多 数 机 器 人 都 无 
法 读 取 的 图 片 。 验 证 码 的 读 取 难 度 不同 ， 有 些 验证 码 比 其 他 的 更 加 难 读 ， 后 面 会 介绍 这 个 
问题 。 





















































但 是 ， 验 证 码 并 不 是 网 络 慌 虫 抓 取 数据 时 需要 进行 图 像 转 文字 工作 的 唯一 对 象 。 即 便 是 今 
天 ,仍然 有 很 多 文档 是 扫描 后 直接 放 到 网 上 的 ， 它 们 无 法 直接 使 用 ， 尽 管 “ 近 在 眼前 ”。 
如 果 无 法 将 图 像 转 为 文字 ， 要 想 使 用 这 些 文档 的 内 容 ， 就 只 能 人 工 手 裔 了 ， 可 没 人 愿意 花 
时 间 干 这 事 儿 。 





























将 图 像 转 化 成 文字 被 称 为 光学 字符 识别 (optical character recognition，OCR)。 可 以 实现 
OCR 的 底层 库 并 不 多 ， 目 前 很 多 库 都 是 使 用 几 个 共同 的 底层 OCR 库 ， 或 者 是 在 上 面 进行 
定制 。 这 类 OCR 系统 有 时 会 变 得 非常 复杂 ， 所 以 我 建议 你 先 阅 读本 章 第 一 市 的 内 容 ， 再 
实践 这 一 章 的 代码 示例 。 
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13.1 OCR 库 概述 


对 于 图 像 读 取 和 处 理 、 图 像 相 关 的 机 器 学 习 以 及 图 像 创 建 等 任务 来 说 ，Python 是 一 门 非 
常 出 色 的 语言 。 虽 然 有 很 多 库 可 以 进行 图 像 处 理 ， 但 这 里 只 重点 介绍 两 个 库 : Pillow 和 


Tesseract 。 

































































这 两 个 库 互 为 补充 ， 共 同 对 互联 网 上 的 图 片 进行 处 理 和 OCR 识别 。Pillow 执行 第 一 步 ， 
清洗 和 过 滤 图 像 ， 而 Tesseract 尝试 将 图 像 中 的 形状 与 库 里 面 存储 的 文字 相 匹 配 。 


本 章 将 介绍 这 两 个 库 的 安装 方法 和 基本 用 法 ， 并 给 出 这 两 个 库 配 合 使 用 的 几 个 示例 。 此 外 
还 将 介绍 一 些 高 级 的 Tesseract 训练 ， 以 便 你 训练 Tesseract 识别 你 在 网 上 遇 到 的 其 他 字体 
和 语言 (甚至 是 CAPTCHA )。 





















































13.1.1 Pillow 


尽管 Pillow 算 不 上 是 图 像 处 理 功能 最 全 的 库 ， 但 是 它 拥 有 你 需要 使 用 的 全 部 功能 ， 除 非 你 
要 用 Python 重 写 一 个 Photoshop。 它 也 是 一 个 文档 健全 且 十 分 易 用 的 库 。 
































Pillow 是 从 Python 2.x 的 Python 图 像 库 (Python Imaging Library，PIL) 分 出 来 的 ， 支 持 
Python 3.x。 和 PIL 一 样 ，Pillow 也 可 以 轻松 地 导入 图 片 ， 并 通过 大 量 的 过 滤 、 修 饰 甚至 像 
素 级 的 变换 处 理 图 片 : 




















from PIL import Image, ImageFilter 


kitten = Image.open('kitten.jpg') 

blurryKitten = kitten.filter(ImageFilter.GaussianBlur) 
blurryKitten.save('kitten_blurred.jpg') 
blurryKitten.show() 








在 上 面 这 个 例子 中 ， 图 片 kitten.jpg 会 在 默认 的 图 片 浏 览 器 里 打开 ， 不 过 看 着 会 有 点 儿 模 
糊 。 之 后 ， 这 个 比较 模糊 的 图 片 被 另存 为 kitten_blurred.jpg， 与 原 图 放 在 一 个 文件 夹 里 。 


我 们 可 以 用 Pillow 完成 图 片 的 预 处 理 ， 让 机 器 更 方便 地 读 取 图 片 。 但 是 如 前 所 述 ， 除 了 这 
些 简单 的 过 滤 工 作 之 外 ，Pillow 还 可 以 完成 许多 复杂 的 图 像 处 理工 作 。 更 多 的 信息 ， 请 查 
看 Pillow 文档 。 


















































13.1.2 Tesseract 


Tesseract 是 一 个 OCR 库 ， 目 前 由 Google (一 家 以 OCR 和 机 器 学 习 技术 闻名 于 世 的 公司 ) 
赞助 。Tesseract 是 目前 公认 最 优秀 、 最 精确 的 开源 OCR 系统 。 





除了 极 高 的 精确 度 ，Tesseract 还 具有 很 高 的 灵活 性 。 它 可 以 通过 训练 识别 出 任何 字体 (只 
要 这 些 字体 的 风格 保持 不 变 就 可 以 ， 后 面 会 介绍 ) ， 也 可 以 识别 出 任何 Unicode 字符 。 
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本 章 既 会 使 用 命令 行程 序 Tesseract， 也 会 用 到 第 三 方 Python 包装 器 pytesseract。 两 者 
的 命名 非常 清楚 ， 因 此 当 你 看 到 “Tesseract” 时 ， 我 指 的 是 命令 行 软 件 ， 而 当 你 看 到 
“pytesseract” 时 ， 我 指 的 是 第 三 方 Python 包装 器 。 








1. 安装 Tesseract 
在 Windows 系统 上 ， 下 载 方 便 的 可 执行 安装 文件 安装 即 可 。 写 作 本 书 时 ，Tesseract 的 最 新 
版 本 是 3.02， 更 新 的 版 本 应 该 也 可 以 这 样 安装 。 











Linux 用 户 可 以 通过 apt-get 安装 : 
$ sudo apt-get install tesseract-ocr 


在 Mac 上 安装 Tesseract 有 点 儿 复 杂 ， 不 过 用 Homebrew 等 第 三 方 库 可 以 很 方便 地 安装 。 
Homebrew 在 第 6 章 介 绍 MySQL 安装 过 程 时 提 到 过 。 例 如 ， 你 可 以 用 下 面 两 行 代码 首先 
安装 Homebrew， 然 后 再 安装 Tesseract: 








$ ruby -e "S$(curl -fsSL https://raw.githubusercontent.com/Homebrew/ \ 
install/master/install)" 
$ brew install tesseract 














也 可 以 从 Tesseract 项 目的 下 载 页 面 下 载 源 代码 安装 。 


要 使 用 Tesseract 的 某 些 功能 ， 比 如 在 后 面 的 示例 中 训练 程序 识别 新 字符 ， 你 需要 先 在 系统 
中 设置 一 个 新 的 环境 变量 STESSDATA_PREFIX， 让 Tesseract 知道 训练 的 数据 文件 存储 在 哪里 。 





在 大 多 数 Linux 系统 和 macOS 系统 上 ， 你 可 以 这 么 设置 . 





$ export TESSDATA_PREFIX=/usr/LocaL/share/ 


值得 注意 的 是 ， 虽 然 /usr/local/share/ 是 Tesseract 的 默认 数据 存储 位 置 ， 但 你 还 是 应 该 仔细 
地 检查 一 下 ， 确 保 自己 的 安装 没 问 题 。 





类 似 地 ， 在 Windows 系统 上 ， 你 可 以 通过 下 面 这 行 命令 设置 环境 变量 : 





# setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\ 


2. pytesseract 
安装 好 Tesseract 后 ， 你 就 可 以 着 手 安装 Python 包装 器 库 pytesseract 了 ， 它 会 利用 已 安装 
好 的 Tesseract 读 取 图 像 文件 并 输出 字符 串 和 可 用 在 Python 代码 中 的 对 象 。 





代码 示例 需要 pytesseract 0.1.9 

需要 注意 的 是 ， 在 pytesseract 版 本 0.1.8 和 0.1.9 之 间 ， 作 者 做 了 很 大 的 改 
变 。 本 节 将 仅仅 用 到 该 库 0.1.9 版 本 的 功能 。 请 确保 在 运行 本 章 的 示例 代码 
前 安装 好 正确 的 版 本 。 














吏 
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你 可 以 通过 pip 安装 pytesseract， 或 者 从 pytesseract 项 目的 页 面 下 载 并 运行 : 


$ python setup.py install 





可 以 结合 PIL 使 用 pytesseract， 以 从 图 像 中 读 取 文字 : 





from PIL import Image 
import pytesseract 


print(pytesseract.image to_string(Image.open('files/test.png'))) 
如 果 你 的 Tesseract 库 安 装 在 你 的 Python 路 径 下 ， 你 可 以 对 pytesseract 进行 如 下 设置 : 


pytesseract.pytesseract. tesseract_cmd = '/path/to/tesseract’ 























除了 返回 图 像 的 OCR 结果 外 ，pytesseract 还 有 一 些 有 用 的 功能 。 它 可 以 估计 边界 (每 个 字 
符 的 边界 的 像素 位 置 ) : 


print(pytesseract.image_ to_ boxes(Image.open('files/test.png'))) 

















它 还 会 返回 所 有 数据 的 完整 输出 ， 例 如 置信 分 数 、 页 数 、 行 数 、 像 素 位 置 数 据 以 及 其 他 
自 : 


print(pytesseract.image to _data(Image.open('files/test.png'))) 





默认 情况 下 ， 最 ee de tab 分 隔 的 字符 串 文件 ， 但 是 你 也 可 以 输出 字 
典 , 或 者 在 不 能 够 进行 UTF-8 解码 的 情况 下 输出 字 节 字符 串 : 








from PIL import Image 
import pytesseract 
from pytesseract import Output 


print(pytesseract.image to data(Image.open('files/test.png'), 
output_type=0utput .DICT)) 

print(pytesseract.image to_string(Image.open('files/test.png'), 
output_type=0utput .BYTES)) 


本 章 会 将 pytesseract 库 和 命令 行 Tesseract 结合 起 来 使 用 ， 并 从 Python 通过 subprocess 库 
触发 Tesseract。 尽 管 pytesseract 库 很 实用 也 很 方便 ， 但 是 它 仍然 实现 不 了 Tesseract 的 部 分 
功能 ， 因 此 最 好 是 熟悉 所 有 这 些 方法 。 














13.1.3 NumPy 


虽然 NumPy 并 非 解决 OCR 问题 时 必须 使 用 的 库 ， 但 是 如 果 你 想 训练 Tesseract 识别 本 章 后 
面 提 到 的 字符 或 字体 ， 那 么 就 会 用 到 它 。 在 后 面 的 一 些 代码 示例 中 ， 你 也 会 用 它 来 完成 简 
单 的 数学 任务 (如 计算 加 权 平 均值 )。 














区 














NumPy 是 一 个 非常 强大 的 库 具有 大 量 线性 代数 以 及 大 规模 科学 计算 的 方法 。 因 为 
Numpy 可 以 用 数学 方法 把 图 片 表 示 成 巨大 的 像素 数组 ， 所 以 它 可 以 流畅 地 配合 Tesseract 


完成 任务 。 









































和 其 他 Python 库 一 样 ，Numpy 可 以 通过 第 三 方 包 管理 器 (比如 pip) 或 者 通过 下 载 包 利用 
$python setup.py install 来 安装 。 


即使 你 不 打算 运行 这 里 使 用 NumPy 的 任何 示例 代码 ， 我 也 强烈 建议 你 安装 NumPy 或 者 将 


其 加 入 到 你 的 Python“ 武 器 库 ” 中 。 它 可 以 替代 Python 内 置 的 数学 库 并 且 有 很 多 实用 的 
功能 ， 特 别 是 数组 的 运算 操作 。 














通常 情况 下 ，NumPy 的 导入 和 使 用 方式 如 下 所 示 : 
import numpy as np 
numbers = [100，102，98，97，103] 


print(np.std(numbers)) 
print(np.mean(numbers)) 





这 段 代 码 打印 出 了 一 组 数 的 标准 差 和 平均 值 。 


13.2 ”处 理 格式 规范 的 文字 


运气 好 的 话 ， 你 要 处 理 的 大 多 数 文字 都 是 比较 干净、 格式 规范 的 。 格 式 规范 的 文字 通常 可 
以 满足 一 些 需 求 ， 不 过 究竟 什么 算 “ 格 式 混乱 ”， 什 么 算 “ 格 式 规范 ， 确 实 因 人 而 异 。 















































通常 ， 格 式 规范 的 文字 具有 以 下 特点 : 


使 用 一 种 标准 字体 (不 包含 手写 体 、 草 书 ,或 者 十 分 “花哨 的 ”字体 ) 
。 虽然 是 复印 的 或 是 照片 ， 字 体 还 是 很 清晰 ， 没 有 多 余 的 痕迹 或 污点 
。 排列 整齐 ， 没 有 焉 看 斜 斜 的 字 

没有 超出 图 片 范 围 ， 也 没有 残缺 不 全 或 紧 紧 贴 在 图 片 的 边缘 




















文字 的 一 些 格式 问题 可 在 图 片 预 处 理 时 解决 。 例 如 ， 可 以 把 图 片 转换 成 灰 度 图 ， 调 整 亮度 
和 对 比 度 ， 还 可 以 根据 需要 进行 裁剪 和 旋转 。 但 是 ， 有 些 基本 的 限制 可 能 要 求 进行 更 广泛 
的 训练 。 详 情 请 见 13.3 节 。 























图 13-1 是 格式 规范 文字 的 一 个 理想 示例 。 











This is some text, written in Arial, that will be read by 
Tesseract. Here are some Symbols: I@#$%"&.*() 











13-1: 样本 文字 被 保存 为 .tif 文件 ， 将 由 Tesseract 读 取 





| 
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你 可 以 通过 下 面 的 命令 运行 Tesseract， 读 取 文 件 并 把 结果 写 到 一 个 文本 文件 中 : 





$ tesseract text.tif textoutput | cat textoutput.txt 





输出 结果 的 第 一 行 是 Tesseract 的 版 本 信息 ， 表 明 它 正在 运行 ， 后 面 是 图 片 识 别 结果 
textoutput.txt 文件 里 的 内 容 : 











Tesseract Open Source OCR Engine v3.02.02 with Leptonica 
This is some text, written in Arial, that will be read by 
Tesseract. Here are some symbols: !@#$%"&’() 





你 会 发 现 识 别 结果 很 准确 ， 不 过 符号 “^” 和 “*” 分 别 被 解释 成 了 双 引 号 和 单 引 号 。 大 体 
上 ， 你 可 以 很 舒服 地 阅读 。 


对 图 片 进行 模糊 处 理 ， 转 换 成 一 个 JPG 压缩 格式 的 图 片 ， 再 增加 一 点 儿 背景 渐变 ， 识 别 效 
果 就 会 变 得 很 差 (如 图 13-2 所 示 )。 

































This is some text, written in Arial, that will 
Tesseract. Here are some symbols: 











13-2: 你 在 网 上 看 到 的 许多 图 片 可 能 都 像 这 样 


Tesseract 不 能 完整 处 理 这 个 图 片 ， 主 要 是 因为 图 片 背 景色 是 渐变 的 ， 最 终结 果 是 这 样 : 











This is some text, written In Arlal, that" 
Tesseract. Here are some symbols: _ 


你 会 发 现 ， 随 着 背景 色 从 左 到 右 不 断 加 深 ,文字 变 得 越 来 越 难 以 识别 ，Tesseract 识别 出 的 
每 一 行 的 最 后 一 个 字符 都 是 错 的 。 另 外 ， 经 过 JPG 格式 转换 和 模糊 效果 人 处理 ，Tesseract 更 
难 区 分 小 写 “i” 和 大 写 “I” 以 及 数字 “1”。 








过 到 这 类 问题 ， 可 以 先 用 Python 脚本 对 图 片 进行 清理 。 利 用 Pillow 库 ， 你 可 以 创建 一 个 
国 值 过 滤器 来 去 掉 渐 变 的 背景 色 ， 只 把 文字 留 下 来 ， 从 而 让 图 片 更 加 清晰 ， 便 于 Tesseract 
读 取 。 


























另外 ， 除 了 从 命令 行使 用 Tesseract， 你 也 可 以 使 用 pytesseract 库 来 运行 Tesseract 命令 并 读 
取 结 果 文 件 。 





from PIL import Image 
import pytesseract 


def cLeanFiLe(fiLLePath，newFiLLePath ) : 
image = Image.open(fiLePath) 








# 为 图 像 设 置 一 个 阔 值 过 滤器 并 保存 

image = image.point(lambda x: 0 if x < 143 else 255) 
image.save(newFilepPath) 

return image 











image = cleanFile('files/textBad.png', 'files/textCleaned.png') 








# 调用 Tesseract 对 新 创建 的 图 像 进行 0CR 识 别 


print(pytesseract.image to_string(image)) 














程序 自动 创建 的 textCleaned.png 如 图 13-3 所 示 。 





This ls some text. written n Arial, that will be read by 
Tesseract Here are some Symbols: I@#5%°&"() 











13-3: 通过 一 个 阔 值 对 前 面 的 “模糊 ”图 片 进行 过 滤 的 结果 


除了 一 些 标点 符号 不 太 清 晰 或 丢失 了 ， 大 部 分 文字 都 是 可 读 的 ， 至 少 对 我 们 而 言 如 此 。 
Tesseract 给 出 了 其 最 好 的 结果 : 





























This us Some text’‘ written In Anal, that will be read by 
Tesseract Here are some symbols: !@#$%"&'() 











图 片上 的 句点 和 逗号 经 过 处 理 后 变 得 非常 小 ， 不 论 从 我 们 的 视角 还 是 Tesseract 的 视角 
看 ， 它 们 都 从 图 片上 基本 消失 了 。 还 有 一 点 失误 是 把 “Arial” 解 释 成 了 “Anal”"， 这 是 
Tesseract 把 “r” 和 “i” 都 解释 成 了 “n” 的 结果 。 


不 过 ， 相 比 上 一 版 本 被 截断 的 识别 结果 ， 这 一 版 算是 有 很 大 进步 了 。 


Tesseract 最 大 的 弱项 是 对 渐变 背景 色 的 处 理 。 在 之 前 那个 版 本 中 ，Tesseract 的 算法 在 读 取 
文字 之 前 会 自动 尝试 调整 图 片 对 比 度 ， 但 是 如 果 你 用 Pillow 库 这 样 的 工具 对 图 片 进行 预 处 
理 ， 效 果 会 更 好 。 


在 提交 给 Tesseract 处 理 之 前 ， 那 些 带 标题 的 、 带 有 大 片 空白 的 图 片 ， 或 者 有 其 他 问题 的 图 
片 ， 都 应 该 进行 预 处 理 。 






































村 








13.2.1 自动 调整 图 像 

在 前 面 的 例子 中 ， 值 143 作为 理想 的 国 值 来 将 图 像 像 素 调 整 成 黑色 或 者 白色 ， 这 样 
Tesseract 就 可 以 读 取 图 像 了 。 但 是 如 果 你 有 很 多 图 像 ， 它 们 全 都 有 不 同 程度 的 灰 度 问题 ， 
无 法 手动 一 一 调整 怎么 办 ? 


寻找 最 佳 (至少 是 非常 好 的 ) 解决 方案 的 一 种 方式 ， 是 对 一 些 调整 到 不 同 值 的 图 像 运 行 
Tesseract， 并 利用 算法 选择 结果 最 好 的 那个 值 ， 结 果 可 以 通过 Tesseract 能 够 读 取 的 字符 / 






































吏 
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字符 串 数量 以 及 Tesseract 读 取 这 些 字符 时 使 用 的 “置信 值 ” 的 某 种 组 合 来 度量 。 




















具体 使 用 哪 种 算法 会 因应 用 的 不 同 而 略 有 差异 ， 但 以 下 是 一 个 对 不 同 图 像 处 理 阔 值 进行 迭 
代 ， 以 便 找到 “最 佳 ”设置 的 示例 。 





import pytesseract 

from pytesseract import Output 
from PIL import Image 

import numpy as np 


def cleanFile(filepath, threshold): 
image = Image.open(fiLLePath) 
# 为 图 像 设 置 一 个 病 值 过 滤器 并 保存 
image = image.point(lambda x: 0 if x < threshold else 255) 
return image 





def getConfidence(image): 
data = pytesseract.image to _ data(image, output_ type=O0utput.DICT) 
text = data[ 'text'] 
confidences = [] 
numChars = [] 


for 1 in range(len(text)): 
if data['conf'][i] > -1: 
confidences.append(data[ 'conf' ][i]) 
numChars.append(len(text[i])) 


return np.average(confidences, weights=numChars), sum(numChars) 


filepath = 'files/textBad.png' 


start = 80 
step = 
end = 200 


for threshold in range(start, end, step): 
image = cleanFile(filepath, threshold) 
scores = getConfidence(image) 
print("threshold: " + str(threshold) + ", confidence: " 









































+ str(scores[0]) + " numChars " + str(scores[1])) 
上 述 代 码 中 有 两 个 函数 。 
cleanFile 
输入 原始 的 “ 坏 ” 文 件 并 用 一 个 国 值 变量 运行 PIL 贱 值 工具 。 它 处 理 文件 并 返回 PIL 图 
像 对 象 。 
getConfidence 























输入 清洗 后 的 PIL 图 像 对 象 并 通过 Tesseract 运行 。 它 计算 每 个 识别 字符 串 的 平均 置信 
值 (通过 字符 串 中 字符 的 数量 统计 ) ， 以 及 识别 字符 的 数量 。 











通过 改变 国 值 ， 


threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 
threshold: 


从 结果 中 可 以 看 


获得 识别 字符 的 置信 值 和 数量 ， 得 到 如 下 输出 : 


80, confidence: 
85, confidence: 
90, confidence: 
95, confidence: 


100, confidence: 
105, confidence: 
110, confidence: 
115, confidence: 
120, confidence: 
125, confidence: 
130, confidence: 
135, confidence: 
140, confidence: 
145, confidence: 
150, confidence: 
155, confidence: 
160, confidence: 
165, confidence: 
170, confidence: 
175, confidence: 
180, confidence: 
185, confidence: 
190, confidence: 
195, confidence: 





























61.8333333333 numChars 
64.9130434783 numChars 
62.2564102564 numChars 
64.5135135135 numChars 


60. 


61 


Ds 
76. 
72. 
7S。 
77. 
79. 
78. 
80. 
78. 
76. 
76. 
79. 
76. 
.6153846154 


70 


7878787879 


.9078947368 
64. 
69. 
72. 
73. 


6329113924 
7397260274 
9078947368 


numChars 
numChars 
numChars 
numChars 
numChars 


1 
2 
3 
3 





Lb 


8 
3 
9 
7 
66 
76 
79 
73 
76 


582278481 numChars 79 


6708860759 
8292682927 
1686746988 
5662650602 
5443037975 
1066666667 
4666666667 
1428571429 
4285714286 
3731343284 
7575757576 
4920634921 
0793650794 


numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 
numChars 





附近 达到 最 高 点 ， 这 个 国 值 与 我 们 手动 发 现 的 143 这 人 


G3 


79 
82 
83 
83 
79 
75 
75 
70 
70 
67 
66 
63 
63 
65 





相 ” 


1 

















8 平均 置信 值 以 及 识别 出 的 字符 数量 的 变化 规律 。 这 两 个 值 都 在 国 值 145 


出 值 非常 接近 。 














140 和 145 这 两 个 国 值 给 出 了 最 大 识别 字符 数量 (83)， 但 是 国 值 145 给 出 了 这 些 字符 的 最 


大 置信 值 ， 因 此 你 可 能 希望 采用 这 个 结果 ， 并 返 
含 文字 的 “最 佳 
当然 ， 仅 仅 找到 “最 多 ”的 字符 并 不 意味 着 所 有 这 些 字符 都 是 真实 存在 的 。 取 某 些 阔 值 


时 ，Tesseract 可 能 会 将 单个 字符 分 成 多 个 字符 ， 或 者 将 
上 不 存在 的 文字 字符 。 在 














猜测 。 








FE 这 
例如 ， 如 果 你 看 到 的 部 分 结果 如 下 : 





文 种 情况 下 ， 你 可 能 需 











回 该 立 值 对 应 的 识别 文本 作为 对 图 像 所 包 








图 像 中 的 随机 噪声 解释 成 一 个 实际 


要 更 多 地 参考 每 个 分 数 的 平均 置信 值 。 


threshold: 145, confidence: 75.5662650602 numChars 83 
threshold: 150, confidence: 97.1234567890 numChars 82 








你 很 容易 采用 得 出 这 样 的 结论 : 闵 值 150 提高 了 20% 的 置信 率 ， 而 仅仅 损失 了 一 个 字符 ， 
那么 国 值 145 肯定 是 不 准确 的 ， 或 者 是 分 割 了 某 个 字符 ， 或 者 是 发 现 了 一 个 不 存在 的 字符 。 














这 时 ， 提 前 进行 实验 ， 以 完善 你 的 国 值 选择 算法 就 很 有 用 了 。 例 如 ， 你 可 能 要 选择 使 置信 
率 和 字符 数量 的 乘积 最 大 的 分 数 〈 在 上 面 的 例子 中 ， 仍 然 是 浆 值 145 获胜 ， 对 应 的 乘积 是 
6272， 而 对 于 我 们 假想 的 例子 来 说 ， 是 国 值 150 获胜 ， 其 对 应 的 乘积 是 7964) 或 者 其 他 指标 。 






































两 
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注意 ， 这 种 选择 算法 对 于 国 值 以 外 的 其 他 PIL 工具 值 依然 是 有 效 的 。 你 也 可 以 用 它 选 择 两 
个 或 者 两 个 以 上 不 同 的 值 ， 并 用 同样 的 方式 选择 最 佳 的 结果 分 数 。 








显然 ， 这 种 选择 算法 是 计算 密集 型 的 。 你 需要 对 每 一 幅 图 像 多 次 运行 PIL 和 Tesseract， 而 
如 果 你 提前 知道 “理想 ” 靖 值 的 话 ， 就 仅仅 需要 运行 一 次 。 























还 需要 记 住 的 是 ， 当 开始 处 理 图 像 时 ， 你 可 能 会 开始 注意 到 “理想 ” 效 值 的 模式 。 你 可 能 
只 需要 尝试 130 至 180 区 间 的 赋值 ， 而 不 需要 沦 试 在 80 至 200 之 间 的 每 一 个 国 值 。 





























你 甚至 可 能 尝试 另外 一 种 方法 ， 即 在 第 一 轮 选 择 其 中 20 个 国 值 ， 然 后 用 贪 禁 算 法 寻找 最 
佳 结果 。 有 具体 做 法 是 在 前 一 轮 迭 代 中 发 现 的 “最 佳 ” 财 值 之 间 逐 步 减 小 步 长 。 当 你 处 理 多 
个 变量 时 ， 这 种 方法 也 是 非常 适用 的 。 
































13.2.2 ”从 网 站 图 片 中 抓 取 文字 

用 Tesseract 读 取 硬盘 里 图 片上 的 文字 可 能 不 怎么 邻 人 兴 备 ， 但 当 我 们 将 它 和 网 络 谎 虫 结 合 
起 来 使 用 时 ， 就 会 变 成 一 个 强大 的 工具 。 网 站 上 的 图 片 可 能 并 不 是 故意 把 文字 弄 得 模糊 难 
认 (就 像 当 地 餐厅 网 站 上 菜单 的 JPG 图 片 一 样 ) ， 但 它们 也 可 以 故意 隐藏 文字 ， 如 下 一 个 
例子 所 示 。 











虽然 亚马逊 的 robots.txt 文件 允许 抓 取 网 站 的 产品 页 面 ， 但 是 图 书 的 预览 页 通常 无 法 抓 取 。 
这 是 因为 图 书 的 预览 页 是 通过 用 户 触发 的 Ajax 脚本 进行 加 载 的， 预览 图 片 隐藏 在 div 节点 
下 面 。 对 于 普通 的 网 站 访问 者 来 说 ， 它 们 看 起 来 更 像 是 Flash 动画 ， 而 不 是 图 像 文件 。 当 
然 ， 即 使 我 们 能 获得 图 片 ， 要 把 它们 读 成 文字 也 没 那 么 简单。 


下 面 的 程序 就 解决 了 这 个 问题 : 首先 导航 到 托 尔 斯 泰 的 《战争 与 和 平 》 的 大 字号 印刷 版 ， 
打开 阅读 器 ， 收 集 图 片 的 URL 链接 ， 然 后 下 载 图 片 ， 识 别 图 片 ， 最 后 打印 每 个 图 片 中 的 
文字 。 



























































请 注意 ， 这 段 代 码 的 正确 运行 取决 于 真实 的 亚马逊 列表 以 及 亚马逊 网 站 的 一 些 架构 特征 。 
如 果 这 个 列表 被 替换 下 去 了 ， 你 可 以 用 另外 一 本 书 的 预览 URL 替换 (我 发 现 放大 显示 的 
时 候 ，sans-serif 字体 也 能 正常 显示 )。 














因为 这 个 程序 很 复杂 ， 利 用 了 前 面 儿童 的 多 个 程序 片段 ， 所 以 我 增加 了 一 些 注释 ， 以 让 每 
段 代 码 的 目的 更 加 清晰 。 








import time 
from urllib.request import urlretrieve 


























注 1: 当 处 理 那些 没有 训练 过 的 文字 时 ，Tesseract 对 大 字号 印刷 版 图 书 的 识别 效果 更 好 ， 尤 其 是 图 片 比较 小 
的 时 候 。 下 一 节 将 介绍 如 何 用 不 同 的 字体 训练 Tesseract， 这 样 可 以 帮助 它 识 别 更 小 的 字 ， 包 括 普 通 字 
号 印刷 版 图 书 。 
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from PIL import Image 
import tesseract 
from selenium import webdriver 


def getImageText(imageUrl): 
urlretrieve(image, 'page.jpg') 
p = subprocess.Popen(['tesseract', 'page.jpg', 'page'], 
stdout=subprocess .PIPE, stderr=subprocess .PIPE) 
p.wait() 
f = open('page.txt', 'r') 
print(f.read()) 





# 创建 新 的 Selenium driver 
driver = webdriver.Chrome(executable_path='<Path to chromedriver>') 





driver.get('https://www.amazon.com/Death-Ivan-Ilyich'\ 
'-Nikolayevich-Tolstoy/dp/1427027277') 
time.sleep(2) 


# 点 击 图 书 预览 按钮 
driver.find_element by _id('imgBlkFront').click() 
imageList = [] 


# 等 待 页 面 加 载 
time.sleep(5) 








while 'pointer' in driver.find element_by_id( 
'sitbReaderRightPageTurner').get attributel('style'): 
# 当 右 箭头 可 以 点 击 时 ， 点 击 翻 页 
driver.find_element_by_id('sitbReaderRightPageTurner').click() 
time.sleep(2) 
# 获取 已 加 载 的 任何 新 页 面 〈 可 以 同时 加 载 多 个 页 务 
# 但 是 由 于 使 用 的 是 集合 ， 重 复 的 页 面 不 会 被 加 进来 ) 
pages = driver.find_eLements_by_xpath('//div[QcLass=\'pageImage\']/div/imng ') 
if not len(pages): 
print("No pages found") 
for page in pages: 
image = page.get attribute('src') 
print('Found image: {}'.format(image)) 
if image not in imagelist: 
imageList.append(image) 
getImageText(image) 


























driver .quit() 





尽管 在 理论 上 上 述 代码 可 以 用 任意 类 型 的 Selenium WebDriver 运行 ， 但 我 发 现 目前 在 Chrome 
上 运行 最 稳定 。 








正如 你 之 前 在 Tesseract 阅读 器 中 体验 过 的 一 样 ， 上 述 代码 将 打印 很 长 一 段 书 的 内 容 ， 即 第 
一 章 的 内 容 ， 








两 
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Chapter I 


During an Interval In the Melvmskl trial In the large 
building of the Law Courts the members and public 
prosecutor met in [van Egorowch Shebek’s private 
room, where the conversation turned on the celebrated 
Krasovski case. Fedor Vasillevich warmly maintained 
that it was not subject to their jurisdiction, Ivan 
Egorovich maintained the contrary, while Peter 
ivanowch, not havmg entered into the discussmn at 

the start, took no part in it but looked through the 
Gazette which had Just been handed in. 


“Gentlemen,” he said, “Ivan Ilych has died!” 


当然 ， 其 中 很 多 单词 都 存在 明显 的 错误 ， 例 如 “Melvmsl” 应 该 是 “Melvinski”, “discussmn” 
应 该 是 “discussion”。 很 多 这 种 错误 可 以 根据 词典 单词 列表 进行 猜测 (或许 有 些 基 于 专 有 
名 词 ， 如 “Melvinski”)。 

















偶尔 ， 一 个 错误 可 能 圳 括 了 整个 单词 ， 例 如 第 3 页 的 文本 : 


it is he who is dead and not 1. 








在 这 个 例子 中 ， 单 词 “I” 被 识别 成 字符 “1”。 这 里 可 以 使 用 马尔 可 夫 链 分 析 以 及 单词 词典 
来 解决 这 个 问题 。 如 果 文 本 的 任何 部 分 包含 非常 不 常见 的 短语 (如 “and not 1”)， 就 可 以 
认为 该 文本 实际 上 应 该 是 更 常见 的 “and not 了 1”。 





当然 ， 这 些 字符 的 禁 换 也 应 该 遵循 一 定 的 可 预测 模式 :“vi” 变 成 “w”,，“I” 变 成 “1”。 如 
果 这 些 替 换 频 繁 地 出 现在 你 的 文本 中 ， 你 可 以 创建 一 个 列表 来 “尝试 ”出 新 的 单词 和 短 
语 ， 选 择 更 合理 的 解决 方案 。 一 种 方法 是 替换 掉 经 常 被 混淆 的 字符 ， 并 用 字典 中 的 单词 去 
匹配 ， 或 者 用 已 识别 出 的 (或 最 常见 的 ) n-gram 匹配 。 











如 果 你 采用 这 种 方法 ， 请 阅读 第 9 章 了 解 更 多 关于 文本 和 自然 语言 处 理 的 信息 。 





尽管 在 这 个 例子 中 文本 是 常见 的 sans-serif 字体 ，Tesseract 应 该 可 以 轻易 识别 出 来 ， 但 有 时 
候 重 新 训练 可 以 进一步 提高 准确 率 。 下 一 节 将 介绍 另 一 种 方法 来 解决 文字 混乱 的 问题 。 

















通过 给 Tesseract 提供 已 知 的 文字 与 图 片 映射 集 ， 经 过 训练 Tesseract 就 可 以 “学 会 ”识别 
同一 种 字体 ， 而 且 可 以 达到 更 高 的 精确 率 和 准确 率 ， 哪 怕 图 片 中 的 文字 有 背景 色 和 相对 位 
置 等 问题 。 


13.3” 读 取 验证 码 与 训练 Tesseract 


虽然 大 多 数 人 对 单词 “CAPTCHA” 都 很 熟悉 ， 但 是 很 少 有 人 知道 它 的 具体 含义 : 全 自动 
区 分 计算 机 和 人 类 的 图 灵 测 试 (Completely Automated Public Turing Test to Tell Computers 


























and Humans Apart)。 它 的 奇怪 缩写 似乎 暗示 它 一 直 在 扮演 着 十 分 奇怪 的 角色 。 其 目的 是 为 
了 阻止 网 站 访问 ， 而 不 是 让 访问 更 通 轧 ， 它 经 常 让 人 类 和 非 人 类 的 网 络 机 器 人 座 陷 验 证 码 
识别 的 记 福 。 
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艾 伦 ， 























灵 在 1950 年 发 表 的 论文 “Computing Machinery and Intelligence” 中 首次 描述 了 图 








灵 测 试 。 他 在 论文 中 描述 了 这 样 一 种 场景 : 一 个 人 可 以 通过 计算 机 终端 与 其 他 人 以 及 人 工 
智能 程序 交流 。 如 果 一 番 对 话 之 后 ， 这 个 人 无 法 区 分 出 人 和 人 工 智 能 程序 ， 那 么 就 认为 这 
智能 


个 人 工 智 
的 事情 。 











程序 通过 了 图 灵 测 试 ， 图 灵 认 为 这 个 人 工 智 能 程序 就 可 以 真正 地 “思考 ”所 有 














令 人 人 啼笑皆非 的 是 ， 在 过 去 的 60 多 年 里 ， 我 们 从 使 用 这 些 测试 来 测试 机 器 ， 变 成 了 用 它 
们 来 测试 我 们 自己 ， 结 果 喜 忧 参半 。Google 近来 放弃 了 其 难得 令 人 发 指 的 reCAPTCHA， 
主要 是 因为 它 也 拦截 了 正常 的 人 类 用 户 。” 








大 多 数 其 他 的 验证 码 都 是 比较 简单 的 。 例 如 ， 流 行 的 PHP 内 容 管 理 系统 Drupal 有 一 个 著 
名 的 验证 码 模块 ， 可 以 生成 不 同 难度 的 验证 码 。 默 认 图 片 如 图 13-4 所 示 。 






































CAPTCHA 


This question is for testing whether or not you are a human visitor 
and to prevent automated spam submissions. 


M ™ 3 
What code is in the image? * 


Enter the characters shown in the image. 


Create new account 








图 13-4: Drupal 验证 码 项 目的 默认 文字 验证 码 示例 











那么 与 其 他 验证 码 相 比 ， 究 竟 是 什么 让 这 个 验证 码 更 容易 被 人 类 和 机 器 读 懂 呢 ? 





字符 没有 从 加 在 一 起 ， 在 水 平方 向 上 也 没有 交 又 。 也 就 是 说 ， 可 以 在 每 一 个 字符 外 首 
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一 个 方 框 ， 而 不 会 与 其 他 字符 重 且 。 
没有 背景 图 、 线 条 或 其 他 会 对 OCR 程序 产生 干扰 的 噪点 。 


虽然 在 
“4? 和 





图 中 不 明显 , 但 是 这 个 验证 码 用 的 字体 种 类 很 少 , 而 且 用 的 是 sans-serif 字体 (如 








“M”) 和 一 种 手写 体 (如 “m”“C” 和 “3”)。 














注 2: 详情 请 见 https://gizmodo.com/google-has-finally-killed-the-captcha-1793190374。 
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白色 背景 与 深 色 字母 之 间 的 对 比 度 很 高 。 
这 个 验证 码 只 做 了 一 点 点 改变 ， 就 让 OCR 程序 很 难 识别 。 
字母 和 数字 都 使 用 了 ， 这 会 增加 待 搜索 字符 的 数量 。 
字母 随机 的 倾斜 程度 会 迷惑 OCR 软件 ， 但 是 人 类 还 是 很 容易 识别 的 。 
那个 比较 陌生 的 手写 字体 很 有 挑战 性 ， 其 中 “C” 和 “3” 里 面 有 额外 的 线条 。 另 外 ， 
对 于 非常 小 的 小 写 “m”， 计 算 机 需要 进行 额外 的 训练 才能 识别 。 











用 下 面 的 代码 运行 Tesseract 识别 图 片 : 








$ tesseract captchaExample.png output 
得 到 的 output.txt 文件 是 : 


4N\, ,,C<3 





虽然 识别 出 了 4、C 和 3, 但 是 显然 无 法 很 快 识别 出 正确 的 验证 码 。 


训练 Tesseract 


要 训练 Tesseract 识别 一 种 文字 ， 无 论 是 星 座 难 懂 的 字体 还 是 验证 码 ， 你 都 需要 向 Tesseract 
提供 每 个 字符 不 同形 式 的 样本 。 


这 项 枯燥 的 工作 可 能 要 花 好 几 个 小 时 ， 你 可 能 更 想 用 这 个 时 间 找 个 好 看 的 视频 或 电影 
看 。 首 先 要 把 验证 码 的 多 个 样本 下 载 到 一 个 文件 夹 里 。 下 载 的 样本 数量 取决 于 验证 码 的 复 
杂 程 度 ， 我 在 训练 集 里 一 共 放 了 100 个 样本 (一 共 500 个 字符 ,平均 每 个 字符 8 个 样本 ， 
a-z 的 大 小 写字 母 加 数字 0-9， 一 共 62 个 字符 )， 应 该 足够 训练 的 了 。 











建议 使 用 验证 码 的 真实 结果 给 每 个 样本 文件 命名 (如 4MmC3.jpg)。 这 有 助 
于 你 一 次 性 对 大 量 的 文件 进行 快速 检查 一 一 你 可 以 先 把 图 片 调 成 缩 略 图 模 
式 ， 然 后 通过 文件 名 对 比 不 同 的 图 片 。 这 样 ， 在 后 面 的 步骤 中 进行 训练 效果 
的 检查 也 会 很 方便 。 






































第 二 步 是 准确 地 告诉 Tesseract 一 张 图 片 中 的 每 个 字符 是 什么 ， 以 及 每 个 字符 的 具体 位 置 。 
这 里 需要 创建 一 些 和 矩形 定位 文件 (box fle)， 为 每 个 验证 码 图 片 生成 一 个 矩形 定位 文件 。 
一 个 图 片 的 矩形 定位 文件 如 下 所 示 : 








415 26 33 55 0 
M 38 13 67 45 0 
m 79 15 101 26 0 
C 111 33 136 60 0 
3 147 17 176 45 0 
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第 一 列 符号 是 图 片 中 的 每 个 字符 ， 后 面 的 4 个 数字 分 别 是 包围 这 个 字符 的 最 小 矩形 的 坐 
标 "， 最 后 一 个 数字 “0” 表 示 图 片 样本 的 编号 。 


显然 ， 手工 创建 这 些 图 片 的 矩形 定位 文件 很 无 聊 ， 不 过 有 一 些 工具 可 以 帮 上 忙 。 我 很 喜欢 
在 线 工具 Tesseract OCR Chopper， 因 为 它 不 需要 安装 ， 也 没有 其 他 依赖 ， 只 要 有 浏览 器 就 
可 以 运行 ， 而 且 用 法 很 简单 : 上 传 图 片 ， 如 果 要 增加 新 矩形 就 单 击 “Add” 按 钮 ， 还 可 以 
根据 需要 调整 矩形 的 尺寸 ， 最 后 把 新 生成 的 矩形 定位 文件 复制 到 一 个 新 文件 里 就 可 以 了 。 
























































矩形 定位 文件 必须 保存 在 一 个 以 .box 为 后 绥 的 纯 文 本 文件 中 。 和 图 片 文件 一 样 ， 文 本 文件 
也 用 验证 码 的 实际 结果 命名 (例如 ，4MmC3.box)。 同 样 ， 这 样 便于 检查 .box 文件 的 内 容 
和 文件 的 名 称 ， 而 且 按 文件 名 对 目录 中 的 文件 排序 之 后 ， 就 可 以 将 .box 文件 与 对 应 的 图 片 
文件 的 实际 结果 进行 对 比 。 


你 需要 创建 大 约 100 个 .box 文件 来 保证 你 有 足够 的 训练 数据 。 因 为 Tesseract 有 时 会 忽略 
那些 不 能 读 取 的 文件 ， 所 以 建议 你 尽量 多 做 一 些 矩 形 定位 文件 ， 以 保证 训练 数据 足够 充 
分 。 如 果 你 觉得 训练 的 OCR 结果 没有 达到 你 的 期 望 ， 或 者 Tesseract 识别 某 些 字符 时 总 是 
出 错 ， 多 创建 一 些 训练 数据 然后 重新 训练 将 是 一 个 不 错 的 改进 方法 。 


创建 完满 载 .box 文件 和 图 片 文 件 的 数据 文件 夹 之 后 ， 在 做 进一步 分 析 之 前 最 好 备份 一 下 这 
个 文件 夹 。 虽 然 在 数据 上 运行 训练 程序 不 太 可 能 删除 任何 数据 ， 但 是 创建 .box 文件 花 了 你 
好 几 个 小 时 的 时 间 ， 来 之 不 易 ， 稳 受 一 点 儿 总 没 错 。 此 外 ， 能 够 抓 取 一 个 满 是 编译 数据 的 
混乱 目录 ， 然 后 再 尝试 一 次 ， 总 是 好 的 。 


完成 所 有 的 数据 分 析 工 作 和 创建 Tesseract 所 需 的 训练 文件 ， 一 共有 6 个 步骤 。 有 一 些 工 具 
可 以 帮 你 处 理 图 片 和 .box 文件 ， 不 过 目前 Tesseract 3.02 还 不 支持 它们 。 

























































































我 写 了 一 个 Python 版 的 解决 方案 (https://github.com/REMitchell/tesseract-trainer) 来 处 理 同 
时 包含 图 片 文件 和 .box 文件 的 数据 文件 夹 ， 然 后 自动 创建 所 有 必需 的 训练 文件 。 


这 个 解决 方案 的 主要 配置 方式 和 步骤 都 在 _init ”方法 和 runALL 方法 里 : 














def _ init_ (self): 


LanguageName = 'eng' 
fontName = 'captchaFont' 
directory = '<path to images>' 


def runAll(self): 
self.createFontFile() 
self.cleanImages() 
self.renameFiles() 
self.extractUnicode() 


























注 3: 图 片 左下 角 是 原点 (0,0)，4 个 数字 分 别 对 应 每 个 字符 的 左下 角 x 坐标 、 左 下 角 y 坐标、 右上 角 x 坐 标 
和 右上 角 y 坐标 。 译 者 注 
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self.runShapeClustering() 
self.runMfTraining() 
self.runCnTraining() 

seLf .createTessData() 





你 需要 动手 设置 的 只 有 3 个 变量 。 





LanguageName 
Tesseract 用 3 个 字母 的 语言 代码 表示 识别 的 语言 种 类 。 大 多 数 情况 下 ， 你 可 能 都 会 用 
“eng” 表 示 英 语 (English)。 








fontName 


表示 你 选择 的 字体 名 称 。 可 以 是 任意 名 称 ， 但 必须 是 一 个 不 包含 空格 的 单词 。 





directory 
表示 包含 所 有 图 片 和 .box 文件 的 目录 。 建 议 你 使 用 文件 夹 的 绝对 路 径 ， 如 果 你 使 用 相 
对 路 径 ， 可 能 需要 以 Python 代码 运行 的 目录 位 置 为 原点 。 如 果 你 使 用 绝对 路 径 ， 就 可 
以 在 电脑 的 任意 位 置 运行 代码 了 。 


让 我 们 再 看 看 runALL 里 每 个 国 数 的 用 法 。 























createFontFile 创建 了 一 个 font properties 文件 ， 让 Tesseract 知道 你 要 创建 的 新 字体 : 


captchaFont 00000 














这 个 文件 包含 字体 的 名 称 ， 后 面 跟着 若干 1 和 0， 分 别 表示 应 该 使 用 斜体 、 粗 体 或 其 他 版 
本 的 字体 〈 用 这 些 属 性 训练 字体 是 一 个 很 好 玩 儿 的 练习 ， 不 过 超出 了 本 书 的 介绍 范围 ， 感 
兴趣 的 同学 可 以 自己 尝试 )。 


cleanImages 首先 创建 所 有 样本 图 片 的 高 对 比 度 版 本 ， 然 后 转换 成 灰 度 图 ， 并 进行 一 些 清 
理 ， 让 OCR 程序 更 容易 读 取 。 如 果 你 要 处 理 的 验证 码 图 片上 面 有 一 些 很 容易 过 滤 掉 的 噪 
点 ， 那 么 你 可 以 在 这 里 增加 一 些 步骤 来 处 理 它 们 。 






















































































renameFiles 把 所 有 的 图 片 文件 和 .box 文件 的 文件 名 改变 成 Tesseract 需要 的 形式 (fleNumber 
是 文件 序号 ， 用 来 区 别 每 个 文件 ) : 











Sime 





。 <languageName>.<fontName>.exp<fileNumber>.box 


。 <languageName>.<fontName>.exp<fileNumber>.tiff 


extractUnicode 函数 会 检查 所 有 已 创建 的 .box 文件 ， 确 定 要 训练 的 字符 集 范围 。 抽 取出 
的 Unicode 文件 会 告诉 你 一 共 找 到 了 多 少 个 不 重复 的 字符 ， 这 也 是 一 个 查询 字符 的 好 方法 ， 
如 果 你 漏 了 字符 可 以 用 这 个 结果 快速 排查 。 

















之 后 的 3 个 函数 ，runShapeClustering、runMfTraining 和 runCtTraining， 分 别 用 来 创建 文 
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件 shapetable、pfftable 和 normproto。 它 们 会 生成 每 个 字符 的 几何 和 形状 信息 ， 也 会 提 
供 统计 信息 ， 以 便 Tesseract 计算 给 定 字 符 是 某 种 类 型 的 概率 。 
最 后 ，Tesseract 会 用 之 前 设置 的 语言 名 称 ， 对 数据 文件 夹 编译 出 的 每 个 文件 进行 重 命 名 
(例如 ，shapetable 被 重 命名 为 eng.shapetable) ， 然 后 把 所 有 的 文件 编译 到 最 终 的 训练 数据 
文件 eng.traineddata 中 。 
你 需要 动手 完成 的 唯一 步骤 ， 就 是 用 下 面 的 Linux 和 Mac 命令 把 刚刚 创建 的 eng.traineddata 
文件 复制 到 tessdata 文件 夹 里 。 

$cp /path/to/data/eng.traineddata STESSDATA_PREFIX/tessdata 
经 过 这 些 步 又 之 后 ， 你 就 可 以 用 Tesseract 训练 过 的 这 些 验 证 码 来 识别 新 图 片 了 。 现 在 用 
Tesseract 重新 读 取 之 前 的 示例 验证 码 图片 ， 就 可 以 得 到 正确 的 结果 了 : 


























$ tesseract captchaExample.png output|cat output.txt 
4MmC3 


成 功 啦 ! 相 比 之 前 的 识别 结果 4N\,,,C<3， 这 个 识别 结果 有 明显 的 改善 。 


前 面 的 内 容 只 是 对 Tesseract 库 强 大 的 字体 训练 和 识别 能 力 的 一 个 概述 。 如 果 你 对 Tesseract 的 
其 他 训练 方法 感 兴趣 ， 甚 至 打算 建立 自己 的 验证 码 训练 文件 库 ， 或 者 想 和 全 世界 的 Tesseract 
爱好 者 分 享 自己 对 一 种 新 字体 的 识别 成 果 ， 那 么 我 建议 你 仔细 阅读 Tesseract 的 文档 。 


二 昌 过 二 
13.4 获取 验证 码 并 提交 答案 
许多 流行 的 内 容 管 理 系 统 即 使 加 了 验证 码 模 块 ， 其 众所周知 的 注册 页 面 也 经 常会 遭 到 网 络 
机 器 人 的 垃圾 注册 。 比 如 在 http://pythonscraping.com/ 上 ， 即 使 加 了 验证 码 (的 确 也 很 容易 
识别 ) 也 无 法 抑制 大 量 的 垃圾 注册 。 




















那么 ， 这 些 网 络 机 器 人 究竟 是 怎么 做 的 呢 ? 我 们 已 经 成 功 地 识别 出 保存 在 电脑 中 的 验证 码 
了 ， 那 么 如 何 才能 实现 一 个 全 能 的 网 络 机 器 人 呢 ? 本 节 将 综合 前 面 几 章 的 内 容 来 告诉 你 答 
案 。 如 果 你 还 没准 备 好 ， 请 至 少 先 浏 览 一 下 第 10 章 。 


大 多 数 网 站 生成 的 验证 码 图 片 都 具有 以 下 属性 。 


它们 是 服务 器 端 程序 动态 生成 的 图 片 。 验 证 码 图 片 的 src 属性 可 能 和 普通 图 片 不 大 一 样 ， 
比如 <img src="WebForm.aspx?id=8AP85CQKE9TJ">， 但 是 可 以 和 其 他 图 片 一 样 进行 下 载 
和 处 理 。 
。 图 片 的 答案 存储 在 服务 器 端的 数据 库 里 。 
。 很 多 验证 码 都 有 时 效 ， 如 果 你 长 时 间 没 识别 出 来 就 会 失效 。 虽 然 这 对 网 络 机 器 人 来 说 不 
是 什么 问题 ， 但 是 如 果 你 想 保留 验证 码 的 答案 一 会 儿 再 使 用 ， 或 者 想 通 过 一 些 方法 延长 
验证 码 的 有 效 时 限 ， 很 难 成 功 。 
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常用 的 处 理 方法 是 ， 首 先 把 验证 码 图 片 下 载 到 硬盘 里 ， 清 理 干净 ， 然 后 用 Tesseract 处 理 医 
































片 ， 最 后 返回 符合 网 站 要 求 的 识别 结果 。 


我 在 http://pythonscraping.com/humans-only 创建 了 一 个 带 验 证 码 的 评论 表单 ， 来 演示 女 








0D 何 


用 网 络 机 器 人 破解 验证 码 。 该 网 络 机 器 人 使 用 命令 行 Tesseract 库 ， 而 不 是 pytesseract 包装 


器 (尽管 也 可 以 轻易 使 用 )， 如 下 所 示 : 


from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 

import subprocess 

import requests 

from PIL import Image 

from PIL import ImageOps 


def cleanImage(imagePath): 
image = Image.open(imagePath) 
image = image.point(lambda x: 0 if x<143 else 255) 
borderImage = Image0ps.expand(image,border=20,fiLL='white ') 
borderImage.save(imagePath) 


html = urlopen('http://www.pythonscraping.com/humans-only') 

bs = BeautifulSoup(html, 'html.parser') 

# 收集 需要 处 理 的 表单 数据 (包括 验证 码 和 输入 字段 ) 

imageLocation = bs.find('img', {'title': 'Image CAPTCHA'})['src'] 
formBuildId = bs.find('input', {'name':'form build _ id'})['value'] 
captchaSid = bs.find('input', {'name':'captcha_sid'})['value'] 
captchaToken = bs.find('input', {'name':'captcha_token'})['value'] 














captchaUrl = 'http://pythonscraping.com'+imageLocation 

urlretrieve(captchaUrl, 'captcha.jpg') 

cleanImage( 'captcha.jpg') 

p = subprocess.Popen(['tesseract', 'captcha.jpg', 'captcha'], stdout= 
subprocess .PIPE,stderr=subprocess .PIPE) 

p.wait() 

f = open('captcha.txt', 'r') 


# 清理 识别 结果 中 的 空白 字符 
captchaResponse = f.read().replace(' ', '').replace('\n', '') 
print('Captcha solution attempt: '+captchaResponse) 





if len(captchaResponse) == 5: 
params = {'captcha_token':captchaToken, 'captcha_sid':captchaSid, 
'form id':'comment_ node_page_form', 'form build id': formBuildId, 
'captcha_response' :captchaResponse, 'name':'Ryan Mitchell', 
'subject': 'I come to seek the Grail', 
"comment_body[und]j[60][vaLue] ' : 
'...and I am definitely not a bot'} 
r = requests.post('http://www.pythonscraping.com/comment/repLy/10 ' ， 
data=params) 
response0bj = BeautifulSoup(r.text, 'html.parser') 
if responseO0bj.find('div', {'class':'messages'}) is not None: 
print(responseO0bj.find('div', {'class':'messages'}).get text()) 
else: 
print('There was a problem reading the CAPTCHA correctly!') 





值得 注意 的 是 ， 有 两 种 异常 情况 会 导致 这 个 程序 运行 失败 。 第 一 种 情况 是 ，Tesseract 从 验 
证 码 图 片 中 识别 的 结果 不 是 5 个 字符 (因为 训练 样本 中 验证 码 的 所 有 有 效 答案 都 必须 是 5 
个 字符 )， 结 果 不 会 被 提交 ， 程 序 失败 。 第 二 种 情况 是 虽然 识别 的 结果 是 5 个 字符 ， 被 提 
交 到 了 表单 ， 但 是 服务 器 对 结果 不 认可 ， 程 序 仍然 失败 。 在 实际 运行 过 程 中 ， 第 一 种 情况 
发 生 的 概率 大 约 为 50%， 发 生 时 程序 不 会 向 表单 提交 ， 程 序 直接 结束 并 提示 验证 码 识别 错 
误 。 第 二 种 异常 情况 发 生 的 概率 约 为 20%，5 个 字符 都 对 的 概率 约 是 30% (每 个 字符 的 识 
别 正确 率 大 约 是 80%，5 个 字符 都 识别 正确 的 总 概率 是 32.8% ) 。 


















































虽然 这 个 程序 的 识别 效果 好 像 很 差 ， 但 是 用 户 尝试 填写 验证 码 的 次 数 并 没有 限制 ， 而 且 大 
多 数 错误 的 识别 结果 都 可 以 在 提交 到 表单 之 前 就 被 拦 下 来 。 因 此 ， 如 果 有 一 个 识别 结果 提 
交 到 表单 并 传送 到 服务 器 ， 那 么 验证 码 很 可 能 就 是 正确 的 。 如 果 这 样 解释 并 不 能 让 你 信 
服 ， 请 记 住 这 些 都 只 是 简单 的 猜测 ， 准 确 率 只 有 0.0000001%。 “程序 只 要 运行 三 到 四 次 就 
可 以 识别 出 一 个 验证 码 ， 比 简单 的 猜测 9 亿 次 还 是 要 节省 很 多 时 间 的 ! 



























































注 4: 验证 码 的 字符 集 是 26 个 大 写字 有 母 、26 个 小 写字 母 和 10 个 数字 ，5 个 字符 一 共有 62 的 $ 次 方 ， 即 
916 132 832 种 可 能 ， 因 此 简单 猜测 的 准确 率 只 有 0.0000001%， 下 一 句 中 的 9 亿 次 就 是 这 个 道理 。 
一 一 译 者 注 












































| 


妈 像 识别 与 文字 处 理 | 185 





第 14 章 


避 开 抓 取 陷阱 











抓 取 网 站 的 时 候 ， 数 据 显示 在 浏览 器 上 却 抓 取 不 出 来 ， 向 服务 器 提交 自 认 为 已 经 处 理 得 很 
好 的 表单 却 被 拒绝 ， 自己 的 卫 地 址 不 知道 什么 原因 被 网 站 封杀 ， 无 法 继续 访问 。 没 有 什么 
比 这 些 更 令 人 诅 直 的 了 。 














这 是 由 于 一 些 堪 称 最 复杂 的 bug 还 没有 解决 ， 不 仅 因为 这 些 bug 让 人 意 想 不 到 (程序 在 一 
个 网 站 上 可 以 正常 使 用 ,但 在 另 一 个 看 起 来 完全 一 样 的 网 站 上 却 用 不 了 )， 还 因为 那些 网 站 
有 意 不 让 殿 虫 抓 取信 息 。 网 站 已 经 把 你 定性 为 一 个 网 络 机 器 人 直接 拒绝 ， 你 无 法 找 出 原因 。 


在 这 本 书 里 ， 我 已 经 写 了 很 多 方法 来 处 理 网 站 抓 取 的 难点 (提交 表单 ， 抽 取 和 清理 数据 ， 
执行 JavaScript， 等 等 )。 这 一 章 将 继续 介绍 更 多 的 知识 点 ， 尽 管 属 于 不 同 的 主题 (HTTP 
header、CSS 和 HTML 表单 等 )， 但 它们 的 共同 目的 都 是 克服 网 站 阻止 自动 抓 取 这 个 障碍 。 

















即使 你 觉得 下 面 这 些 内 容 现在 对 你 没什么 用 ， 我 还 是 强 列 建 议 你 至 少 浏 览 一 下 。 也 许 有 一 
天 ， 这 一 章 的 内 容 会 帮 你 解决 一 个 非常 复杂 的 bug， 或 者 防止 该 类 bug 出 现 。 





14.1 道德 规范 


在 前 几 章 ， 我 介绍 过 网 页 抓 取 行为 在 法 律 上 的 灰色 地 带 ， 以 及 网 页 抓 取 涉 及 的 一 些 道德 规 
范 。 说 实话 ， 从 道德 角度 上 说 ， 这 一 章 是 我 在 写 这 本 书 时 感到 最 难 写 的 一 章 。 我 自己 的 网 
站 已 经 被 网 络 机 器 人 、 垃 圾 邮件 生成 器 、 网 络 爬 虫 和 其 他 各 种 不 受 欢 迎 的 虚拟 访问 者 骚扰 
过 很 多 次 了 ， 你 的 网 站 可 能 也 是 一 样 。 既 然 如 此 ， 我 为 什么 还 要 在 这 一 章 教 人 们 建立 更 强 
大 的 网 络 机 器 人 呢 ? 
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有 几 个 很 重要 的 理由 促使 我 决定 写 这 一 章 。 


。 在 抓 取 那 些 不 想 被 抓 取 的 网 站 时 ， 甚 实 存在 一 些 完全 符合 道德 和 法 律 规 范 的 理由 。 比 如 
我 之 前 的 工作 就 是 开发 网 络 息 虫 ， 我 曾 开 发 过 一 个 自动 信息 收集 器 ， 在 未 经 许可 的 情况 
下 ， 在 网 站 上 自动 收集 客户 的 名 称 、 地 址 、 电 话 号 码 和 其 他 个 人 信息 ， 然 后 把 抓 取 的 信 
息 提 交 到 网 站 上 ， 让 服务 器 删除 这 些 客 户 信息 。 为 了 避免 竞争 ， 这 些 网 站 都 会 对 网 络 惟 
虫 严 防 死守 。 但 是 ， 我 的 工作 是 确保 公司 的 客户 都 匿名 (其 中 一 些 人 被 跟踪 、 是 家 庭 暴 
力 受 害 者 ,或 者 因 其 他 正当 理由 想 保 持 低调 )， 这 是 进行 网 页 抓 取 的 一 个 充分 的 理由 ， 
我 很 高 兴 自 己 有 能 力 从 事 这 项 工作 。 
虽然 不 太 可 能 建立 一 个 完全 “ 防 候 虫 ”的 网 站 (最 起 码 得 让 合法 的 用 户 可 以 方便 地 访问 
的 网 站 )， 但 我 还 是 希望 本 章 的 内 容 可 以 帮助 人 们 保护 自己 的 网 站 不 被 恶意 攻击 。 在 这 
一 章 ， 我 将 指出 每 一 种 网 页 抓 取 技术 的 缺点 ， 你 可 以 借 此 保护 自己 的 网 站 。 其 实 ， 大 多 
数 网 络 机 器 人 一 开始 都 只 能 做 一 些 宽泛 的 信息 和 漏洞 扫描 ， 用 本 章 介绍 的 几 个 简单 技术 
就 可 以 挡住 99% 的 机 器 人 。 但 是 , 它们 进化 的 速度 非常 快 , 最 好 时 刻 准 备 迎接 新 的 攻击 。 

。 和 大 多 数 程序 员 一 样 ， 我 不 认为 禁止 某 一 类 信息 的 传播 是 件 百 利 而 无 一 害 的 事 。 


学 习 这 一 章 的 内 容 时 ， 和 希望 你 牢记 这 里 演示 的 许多 程序 和 介绍 的 技术 都 不 应 该 在 任何 一 个 
网 站 上 使 用 。 不 仅 因为 这 么 做 不 好 ， 而 且 你 也 可 能 会 收 到 一 封 勒令 停止 警告 信 ， 甚 至 有 可 
能 发 生 更 糟糕 的 事情 (关于 收 到 警告 信 应 该 怎么 办 ， 请 参见 第 18 章 )。 不 过 我 不 想 每 次 学 
习 新 技术 时 都 警告 你 一 下 。 所 以 ， 对 于 本 章 后 面 的 内 容 ， 如 哲学 家 阿 甘 曾 说 的 ,“ 我 想 说 


的 就 是 这 些 ”。 


14.2 ”让 网 络 机 器 人 看 着 和 像 人 类 用 户 


网 站 防 抓 取 的 前 提 就 是 要 正确 地 区 分 人 类 用 户 和 网 络 机 器 人 。 虽 然 网 站 可 以 使 用 很 多 识别 
技术 〈 比 如 验证 码 ) 来 防止 处 虫 ， 但 是 有 些 十 分 简单 的 方法 可 以 让 你 的 网 络 机 器 人 看 起 来 
更 像 人 类 用 户 。 
















































































14.2.1 修改 请 求 头 

本 书 中 ， 我 们 一 直 用 Requests 库 创建 、 发 送 和 接收 HTTP 请 求 ， 比 如 在 第 10 章 中 处 理 网 
站 的 表单 。Requests 库 还 是 一 个 设置 请 求 头 的 利器 。HTTP 的 请 求 头 是 你 每 次 向 Web 服务 
器 发 送 请 求 时 ， 传 递 的 一 组 属性 或 配置 信息 。HTTP 定义 了 几 十 种 古怪 的 请 求 头 类 型 ， 不 
过 大 多 数 都 不 常用 。 只 有 下 面 7 个 字段 被 大 多 数 浏览 器 用 来 初始 化 所 有 网 络 请 求 〈 表 中 信 
息 是 我 自己 的 浏览 器 数据 ) 。 


























Host https:/www.google.com/ 


Connection keep-alive 
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Accept text/html,application/xhtml+xml,application/xml;q=0.9,image/webp, 


*/*;q=0.8 

User -Agent Mozilla/$5.0 (Macintosh; Intel Mac OS X 10 9 $5) AppleWebKit/537.36 
(KHTM™ML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 

Referrer https://www.google.com/ 


Accept-Encoding gzip,deflate,sdch 
Accept-Language en-US,en;q=0.8 


经 典 的 Python 爬虫 在 使 用 urttib 标准 库 时 ， 都 会 发 送 如 下 的 请 求 头 : 








Accept-Encoding identity 
User-Agent Python-urllib/3.4 


如 果 你 是 一 个 防范 扑 虫 的 网 站 管理 员 ， 你 会 让 哪个 请 求 头 访问 你 的 网 站 呢 ? 


幸运 的 是 ， 请 求 头 是 可 以 用 Requests 库 配 置 的 。 网 站 https://www.whatismybrowser.com 可 
以 用 来 测试 对 服务 器 可 见 的 浏览 器 属性 。 你 可 以 用 以 下 代码 抓 取 该 网 站 并 验证 你 的 cookie 
设置 ; 











import requests 
from bs4 import BeautifulSoup 


requests.Session() 

{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac 0S X 10 9 5)' 
'AppleWebKit 537.36 (KHTML, like Gecko) Chrome ' ， 
'Accept':'text/html ,application/xhtml+xml ,application/xml;’ 
'q=0.9,image/webp,*/*;q=0.8'} 

url = 'https://www.whatismybrowser .com/'\ 

'detect/what-http-headers-is-my-browser-sending' 
req = session.get(url, headers=headers) 


session 
headers 


bs = BeautifulSoup(req.text, 'html.parser') 
print(bs.find('table', {'class':'table-striped'}).get text) 


程序 输出 结果 中 的 请 求 头 应 该 和 程序 中 设置 的 headers 是 一 样 的 。 





虽然 网 站 可 能 会 对 HTTP 请 求 头 的 每 个 属性 进行 “是 否 具 有 人 性 ”的 检查 ， 但 是 我 发 现 通 
常 真正 重要 的 参数 就 是 User-Agent。 无 论 你 在 做 什么 项 目 ， 一定 要 记得 把 User-Agent 属性 
设置 成 不 容易 引起 怀疑 的 内 容 ， 不 要 用 Python-urLLib/3.4。 另 外 ， 如 果 你 正在 处 理 一 个 警 
觉 性 非常 高 的 网 站 ， 就 要 注意 那些 经 常用 却 很 少 检 查 的 请 求 头 ， 比 如 Accept-Language 属 
性 ， 也 许 它 正 是 那个 网 站 判断 你 是 个 人 类 访问 者 的 关键 。 

















请 求 头 会 改变 你 看 世界 的 方式 
假设 你 想 为 一 个 研究 项 目 编写 一 个 机 器 学 习 语言 翻译 机 ， 却 没有 大 量 的 翻译 文本 来 测 
试 它 的 效果 。 很 多 大 型 网 站 都 会 为 同样 的 内 容 提 供 不 同 的 语言 翻译 ， 并 且 根 据 请 求 头 
的 参数 响应 不 同 的 语言 版 本 。 因 此 ， 你 只 需 把 请 求 头 属性 从 Accept-Language:en-US 修 
改 成 Accept-Language:fr， 就 可 以 从 网 站 上 获得 “Bonjour”( 法 语 “ 你 好 ”) 这 些 数据 
来 改善 翻译 机 的 翻译 效果 了 (大 型 跨国 企业 通常 都 是 很 好 的 抓 取 对 象 ) 。 
请 求 头 还 可 以 让 网 站 改变 内 容 的 布局 样式 。 例 如 ， 用 移动 设备 浏览 网 站 时 ， 通 常会 看 
到 一 个 没有 广告 、Flash 以 及 其 他 干扰 的 简化 的 网 站 版 本 。 因 此 ， 把 你 的 请 求 头 User- 
Agent 改 成 下 面 这 样 ， 就 可 以 看 到 一 个 更 容易 抓 取 的 网 站 了 | 

User-Agent:Mozilla/5.0 (iPhone; CPU iPhone 0S 7_1 2 like Mac OS X) 


AppleWebKit/537.51.2 (KHTML, like Gecko) Version/7.0 Mobile/11D257 
Safari/9537.53 











14.2.2 用 JavaScript 处 理 cookie 


虽然 cookie 是 一 把 双 刃 剑 ， 但 正确 地 处 理 cookie 可 以 避免 许多 抓 取 问 题 。 网 站 会 用 cookie 
跟踪 你 的 访问 过 程 ， 如 果 发 现 了 行为 异常 的 候 虫 就 会 中 断 它 的 访问 ， 比 如 特别 快速 地 填写 
表单 ， 或 者 浏览 大 量 页 面 。 虽 然 这 些 行为 可 以 通过 关闭 并 重新 连接 网 站 或 者 改变 IP 地 址 来 
伪装 (更 多 信息 请 参见 第 17 章 ) ， 但 是 如 果 cookie 暴露 了 你 的 身份 ， 再 多 努力 也 是 白费 。 



































在 抓 取 一 些 网 站 时 cookie 是 不 可 或 缺 的 。 第 10 章 介 绍 过 ， 在 一 个 网 站 上 持续 地 保持 登录 
状态 ， 需 要 你 在 多 个 页 面 中 保存 一 个 cookie。 一 些 网 站 不 要 求 你 在 每 次 登录 时 都 获得 一 个 
新 cookie， 只 要 保存 一 个 旧 的 “已 登录 ”cookie 就 可 以 访问 网 站 。 


























如 果 你 在 抓 取 一 个 或 者 几 个 目标 网 站 ， 我 建议 你 检查 一 下 这 些 网 站 生成 的 cookie， 然 后 想 
想 哪 一 个 cookie 是 仆 虫 需要 处 理 的 。 有 些 浏览 器 插件 可 以 显示 在 你 访问 网 站 和 浏览 网 站 时 
cookie 是 如 何 设 置 的 。EditThisCookie 是 我 最 喜欢 的 Chrome 浏览 器 插件 之 一 。 


























关于 使 用 Requests 模块 处 理 cookie 的 更 多 信息 ， 请 查看 10.5 市 中 的 示例 人 代码。 当然， 
为 Requests 库 不 能 执行 JavaScript， 所 以 它 不 能 处 理 很 多 由 现代 跟踪 软件 (比如 Google 
Analytics) 生成 的 cookie， 只 有 当 客 户 端 脚本 执行 后 才 设 置 cookie (或 者 在 用 户 浏 览 页 
面 时 基于 点 击 按钮 等 网 页 事件 产生 cookie)。 为 了 处 理 这 些 动作 ， 你 需要 用 Selenium 和 
PhantomJS 包 (安装 方法 和 基本 用 法 在 第 11 章 已 经 介绍 过 ) 。 



































你 可 以 对 任意 网 站 (本 例 用 的 是 http:/pythonscraping.com) 调用 webdriver 的 get_cookie() 
方法 来 查看 cookie: 
from selenium import webdriver 


driver = webdriver.PhantomJS(executable_path="'<Path to Phantom JS>') 
driver.get('http://pythonscraping.com') 
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driver.implicitly wait(1) 
print(driver.get_cookies()) 





这 样 就 可 以 获得 一 个 非常 典型 的 Google Analytics 的 cookie 列表 
[{'value': '1', 'httponly': False, 'name': '_gat', 'path': '/', 'expi 
ry': 1422806785, 'expires': 'Sun, 01 Feb 2015 16:06:25 GMT', "secure ' 
: False, 'domain': '.pythonscraping.com'}, {'value': 'GA1.2.161952506 
2.1422806186','httponly': False, 'name': '_ga', a '/', 'expiry 


': 1485878185, 'expires': 'Tue, 31 Jan 2017 15:56:25 GMT', 'secure': 


False, 'domain': '.pythonscraping.com'}, {'value': '1', 'httponly’ 


" 扩 


alse, 'name': 'has_js', 'path': '/', 'expiry': 1485878185, 'expires': 
'Tue, 31 Jan 2017 15:56:25 GMT', 'secure': False, 'domain': 'pythons 


craping.com'}] 


你 还 可 以 调用 delete_cookie()、add_cookie() 和 delete all_cookies() 0 cookie。 
另外 ， 还 可 以 保存 cookie 以 备 其 他 网 络 仆 虫 使 用 。 下 面 的 例子 演示 了 如 何 把 这 些 函 数组 合 

















在 一 起 : 
from selenium import webdriver 


phantomPath = '<Path to Phantom JS>' 

driver = webdriver.Phantom]JS(executabLe_path=phantomPath ) 
driver.get('http://pythonscraping.com') 

driver.implicitly wait(1) 


savedCookies = driver.get_cookies() 
print(savedCookies) 


driver2 = webdriver.PhantomJS(executable_path=phantompath) 
driver2.get('http://pythonscraping.com') 
driver2.delete all_cookies() 
for cookie in savedCookies: 
if not cookie['domain'].startswith('.') 
cookie[ 'domain'] = '.{}'.format(cookie['domain']) 
driver2.add_cookie(cookie) 


driver2.get('http://pythonscraping.com') 
driver.implicitly wait(1) 
print(driver2.get cookies()) 





在 这 个 例子 中 ， 第 一 个 webdriver 获得 了 一 个 网 站 ， 打 印 cookie 并 把 它们 保存 到 变量 


savedCookies pe 第 二 个 webdriver 加 载 同一 个 网 站 ， 删 除 所 有 的 cookie， 
个 webdriver 得 到 的 cookie。 两 条 技术 提示 如 下 所 示 。 


。 第 二 个 webdriver 在 添加 cookie 之 前 必须 加 载 网 站 ， 这 样 Selenium 才能 知道 cookie 属 





于 哪个 域名 ， 尽 管 加 载 网 站 对 扑 虫 没有 任何 用 处 。 


然 


了 


后 替换 成 第 





。 在 加 载 每 个 cookie 之 前 都 需要 做 检查 ， 查 看 域名 是 不 是 以 点 号 (.) 字符 开头 的 。 这 是 
PhantomJS 的 规则 一 一 添加 cookie 的 所 有 域名 都 要 以 . i ‘pythonscraping. 
com)， 尽 管 并 不 是 PhantomJS webdriver 中 的 所 有 cookie 都 遵循 这 条 规则 。 
用 其 他 的 浏览 器 driver， 例 如 Chrome 或 者 Firefox， 那 么 就 不 需要 这 么 做 。 








如 果 你 在 使 
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当 再 次 加 载 这 个 页 面 时 ， 两 组 cookie 的 时 间 戳 、 源 代码 和 其 他 信息 应 该 完全 一 致 。 从 
Google Analytics 角度 看 ， 第 二 个 webdriver 现在 和 第 一 个 webdriver 完全 一 样 ， 它 们 会 被 同 
样 的 方式 跟踪 。 如 果 第 一 个 webdriver 登录 ， 那 么 第 二 个 也 同样 登录 。 














14.2.3 ”时间 就 是 一 切 

一 些 防 护 措施 完备 的 网 站 可 能 会 阻止 你 快速 地 提交 表单 ， 或 者 快速 地 与 网 站 进行 交互 。 即 
使 没有 这 些 安全 措施 ， 以 比 普通 人 快 很 多 的 速度 从 一 个 网 站 下 载 大 量 信 息 也 可 能 让 自己 被 
网 站 封杀 。 


因此 ， 虽然 多 线程 程序 可 能 是 一 个 快速 加 载 页 面 的 好 办 法 一 一 让 你 在 一 个 线程 中 处 理 数 据 
并 在 另 一 个 线程 中 加 载 页 面 一 一 但 是 这 对 编写 好 的 爬虫 来 说 依然 是 一 种 糟糕 的 策略 。 应 该 
尽量 保证 页 面 加 载 和 数据 请 求 最 小 化 。 如 果 可 能 ， 尽 量 在 页 面 访问 之 间 增 加 几 秒 钟 的 间 
隔 ， 即 使 你 需要 增加 一 行 代码 : 


























import time 


time.sleep(3) 





无 论 你 是 否 需 要 ， 页 面 加 载 之 间 的 额外 儿 秒 钟 都 是 免不了 的 。 有 很 多 次 ， 当 我 从 网 站 抓 取 
数据 的 时 候 ， 每 隔 几 分 钟 就 需要 证 明 自 己 “ 不 是 一 个 机 器 人 ”( 和 手动 识别 验证 码 ， 给 仆 虫 
复制 粘贴 新 的 cookie， 从 而 让 被 访问 网 站 将 爬虫 当 作 “人 类 ”对 待 )， 但 是 通常 增加 一 个 
延 时 的 time.steep 就 可 以 解决 问题 ， 让 我 不 受 限制 地 抓 取 。 


有 时 候 ， 你 要 学 会 以 退 为 进 ! 


14.3 ”常见 表单 安全 措施 


许多 像 Litmus 之 类 的 测试 工具 已 经 用 了 很 多 年 了 ， 现 在 仍 用 于 区 分 网 络 仆 虫 和 使 用 浏览 器 
的 人 类 访问 者 ， 这 类 手段 都 取得 了 不 同 程度 的 效果 。 虽 然 网 络 机 器 人 下 载 一 些 公开 发 表 的 
文章 和 博文 并 不 是 什么 大 事 ， 但 是 如 果 网 络 机 器 人 在 你 的 网 站 上 创建 了 几 千 个 账号 并 开始 
向 所 有 用 户 发 送 垃圾 邮件 ， 就 是 一 个 大 问题 了 。Web 表单 ， 尤 其 是 那些 用 于 账号 创建 和 登 
录 的 表单 ， 如 果 被 机 器 人 滥用 ， 就 会 对 网 站 的 安全 和 计算 开销 造成 严重 威胁 ， 因 此 努力 限 
制 网 站 的 接 入 是 最 符合 许多 网 站 所 有 者 的 利益 的 (至少 他 们 这 么 认为 )。 


这 些 集中 在 表单 和 登录 环 季 上 的 反 机 器 人 安全 措施 ， 对 网 络 仆 虫 来 说 是 一 个 很 大 的 挑战 。 


记 住 ， 当 为 这 些 表单 创 建 自动 化 机 器 人 时 ， 你 会 遇 到 的 安全 措施 可 不 止 这 些 。 关 于 处 理 受 
保护 表单 的 更 多 信息 ， 请 参考 第 13 章 中 关于 验证 码 和 图 片 处 理 的 内 容 ， 以 及 第 17 章 中 关 
于 请 求 头 和 卫 地 址 处 理 的 内 容 。 
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14.3.1 隐 含 输入 字段 值 
在 HTML 表单 中 ,“ 隐 含 ”字段 以 让 字段 的 值 对 浏览 器 可 见 ， 但 是 对 用 户 不 可 见 (除非 看 
网 页 源 代 码 )。 随 着 越 来 越 多 的 网 站 开始 用 cookie 存储 和 传递 状态 变量 ， 隐 含 字 段 在 短暂 
失 完 之 后 找到 了 另 一 个 不 错 的 用 处 : 阻止 候 虫 自动 提交 表单 。 














14-1 显示 的 例子 是 Facebook 登录 页 面 上 的 隐 含 字段 。 虽 然 表 单 里 只 有 3 个 可 见 字 有 段 
(用 户 名 、 密 码 和 一 个 提交 按钮 )， 但 是 在 源 代码 里 表单 会 向 服务 器 传送 大 量 的 信息 。 














Q OD |Elements| Network Sources Timeline Profiles Resources Audits Console EditThisCookie 


p<xa class="lfloat _ohe" href="/" title="Go to Facebook Home">-</a> 
TY<div class="menu_login_container rfloat _ohf"> 
v<form id="login_form" action="https://www.facebook.com/login.php?login_attempt=1" method="post”" onsubmit="retu 
<input type="hidden" name="lsd" value="AVoG5ZxZ" autocomplete="off"> 
v<table cellspacing="0" role="presentation"> 
Vv<tbody> 
= <tr>.-</tr> 
= <tr>-</tr> 
= <tr>.-</tr> 
</tbody> 
</table> 
<input type="hidden" autocomplete="off" name="timezone” value="300" id="u_0_m"> 
<input type="hidden" name="lgnrnd" value="072721_xhYS"> 
<input type="hidden" id="lgnjs" name="lgnjs"” value="1414942841"> 
<input type="hidden” autocomplete="off" id="locale" name="locale” value="en_US"> 
<input type="hidden" name="qsstamp" value= 
"WlitbNywxNCwONyw1NCw3MCw4ANCwxMTESMTMwLDEQMSwxNTYsMTY4LDESNywyMDMsMjA@LDIxNSwyMjAsMjI3LDIzNiwyNjUsMjcyLDI30Cw 
</form> 
</div> 











图 14-1: Facebook 登录 页 面 上 的 隐 售 字段 


用 隐 含 字段 阻止 网 页 抓 取 的 方式 主要 有 两 种 。 第 一 种 是 表单 页 面 上 的 一 个 字段 可 以 用 服务 
器 生成 的 随机 变量 填充 。 如 果 提 交 时 这 个 值 不 在 表单 页 面 上 ， 服 务 器 就 有 理由 认为 它 不 是 
从 原始 表单 页 面 提交 的 ， 而 是 由 网 络 机 器 人 直接 提交 到 表单 处 理 页 面 的 。 绕 开 这 个 问题 的 
最 佳 方法 是 首先 抓 取 表 单 所 在 页 面 上 生成 的 随机 变量 ， 然 后 再 提交 到 表单 处 理 页 面 。 


第 二 种 方式 是 “ 蜜 饶 ”(honey pot)。 如 果 表 单 里 包含 一 个 具有 普通 名 称 的 隐 含 字段 (设置 
密 饶 圈套 ) ， 比 如 “用 户 名 ”(username) 或 “邮箱 地 址 ”(email address) ， 设 计 不 太 好 的 网 
络 机 器 人 往往 不 管 这 个 字段 是 不 是 对 用 户 可 见 ， 直 接 填写 这 个 字段 并 向 服务 器 提交 ， 这 样 
就 会 中 服务 器 的 蜜 夕 圈套 。 服 务 器 会 忽略 所 有 隐 含 字段 的 真实 值 (或 者 与 表单 提交 页 面 的 
默认 值 不 同 的 值 ) ， 而 填写 隐 含 字段 的 用 户 甚至 可 能 被 网 站 封杀 。 


总 之 ， 有 时 有 必要 检查 一 下 表单 所 在 的 页 面 ， 看 看 有 没有 遗漏 或 弄 错 一 些 服务 器 预先 设 定 
好 的 隐 含 字段 〈 蜜 缸 圈 套 ) 。 如 果 你 看 到 一 些 隐 含 字段 ， 通 常 带 有 较 大 的 随机 字符 串 变 量 ， 
那么 Web 服务 器 很 可 能 会 在 表单 提交 时 检查 它们 。 另 外 ， 还 有 其 他 一 些 检查 ， 可 用 来 保证 
当前 生成 的 表单 变量 只 被 使 用 过 一 次 或 是 最 近 生 成 的 〈 这 样 可 以 避免 变量 被 简单 地 存储 到 
一 个 程序 中 反复 使 用 )。 


14.3.2 ”避免 窗 甸 


虽然 用 CSS 属性 区 分 有 用 信息 和 无 用 信息 很 方便 (比如 ， 通 过 读 取 td 和 class 标签 获取 
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信息 ) ， 但 这 有 时 会 对 网 络 疏 虫 造 成 问题 。 如 果 Web 表单 的 一 个 字段 通过 CSS 被 设置 成 对 





























在 浏览 器 上 。 如 果 这 个 字段 被 填写 了 ， 就 很 可 能 是 机 器 人 干 的 ， 因 此 这 个 提交 会 失效 。 











用 户 不 可 见 ， 那 么 可 以 认为 普通 用 户 访问 网 站 的 时 候 不 能 填写 这 个 字段 ， 因 为 它 没 有 显示 


这 种 手段 不 仅 可 以 应 用 在 网 站 的 表单 上 ， 还 可 以 应 用 在 链接 、 图 片 、 文 件 ， 以 及 可 被 机 器 
人 读 取 ， 但 普通 用 户 在 浏览 器 上 却 看 不 到 的 任何 内 容 上 面 。 访 问 者 如 果 访 问 了 网 站 上 的 一 
个 “ 隐 含 ”链接 ， 就 会 触发 服务 器 端 脚 本 封杀 这 个 用 户 的 IP 地 址 ， 把 这 个 用 户 踢 出 网 站 ， 








或 者 采取 其 他 措施 禁止 这 个 用 户 接 入 网 站 。 实 际 上 ， 许 多 商业 模式 就 是 在 干 这 些 事情 。 





下 面 的 例子 所 用 的 页 面 是 http://pythonscraping.com/pages/itsatrap.html。 这 个 页 面包 含 了 两 


























个 链接 ， 其 中 一 个 通过 CSS 隐藏 了 ， 而 另 一 个 是 可 见 的 。 另 外 ， 还 有 一 个 包括 两 个 隐 含 


段 的 表单 : 





<htmL> 
<head> 
<title>A bot-proof form</title> 
</head> 
<style> 
body { 
overflow-x:hidden; 


.CustomHidden { 
position:absolute; 
right:50000px; 


</style> 
<body> 
<h2>A bot-proof form</h2> 
<a _ href= 
"http://pythonscraping.com/dontgohere" style="display:none;">Go here!</a> 
<a href="http://pythonscraping.com">Click me!</a> 
<form> 


含 字 


<input type="hidden" name="phone" value="valueShouldNotBeModified"/><p/> 


<input type="text" name="email" class="customHidden" 
value="intentionallyBlank"/><p/> 
<input type="text" name="firstName"/><p/> 
<input type="text" name="lastName"/><p/> 
<input type="submit" value="Submit"/><p/> 
</form> 
</body> 
</html> 


这 3 个 元 素 通过 3 种 不 同 的 方式 对 用 户 隐藏 : 


。 第 一 个 链接 通过 简单 的 CSS 属性 设置 display:none 进行 隐藏; 
。 电话 号 码 字 段 name="phone" 是 一 个 隐 含 的 输入 字段 ， 











。 邮箱 地 址 字段 name="email" 是 通过 将 元 素 向 右 移动 50 000 像素 (应 该 会 超出 电脑 显示 


器 的 边界 ) 并 隐藏 滚动 条 进行 隐藏 的 。 
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亚运 的 是 ， 因 为 Selenium 可 以 获取 访问 页 面 的 内 容 ， 所 以 它 可 以 区 分 页 面 上 的 可 见 元 素 与 


隐 仿 元素。 利用 is_displayed() 可 以 判断 元 素 在 页 面 上 是 否 可 见 。 








例如 ， 下 面 的 代码 将 获取 前 面 那个 页 面 的 内 容 ， 然 后 查找 隐 含 链接 和 隐 含 输入 字段 : 











from selenium import webdriver 
from selenium.webdriver.remote.webelement import WebElement 


driver = webdriver.Phantom]JS(executabLe_path='<Path to Phantom JS>') 
driver.get('http://pythonscraping.com/pages/itsatrap.html') 
Links = driver.find_elements_by_tag_name('a') 
for link in links: 
if not link.is_displayed(): 
print('The Link {} is a trap'.format(link.get attribute('href'))) 


fields = driver.find_ elements_ by_tag_name('input') 
for field in fields: 
if not field.is_ displayed(): 
print('Do not change value of {}'.format(field.get attribute('name'))) 


Selenium 抓 取出 了 每 个 隐 含 的 链接 和 字段 ， 结 果 如 下 所 示 : 


The link http://pythonscraping.com/dontgohere is a trap 
Do not change value of phone 
Do not change value of email 


虽然 你 不 太 可 能 去 访问 你 找到 的 那些 隐 含 链接 ， 但 是 在 提交 前 ， 记 得 确认 一 下 那些 已 经 在 
表单 中 、 准 备 提交 的 隐 含 字段 的 值 (或 者 让 Selenium 为 你 自动 提交 )。 总 之 ， 简 单 地 忽略 
隐 含 字段 是 很 危险 的 ， 但 与 它们 交互 时 一 定 要 小 心 章 慎 。 


14.4 ”问题 检查 表 


这 一 章 (这 本 书 也 是 一 样 ) 的 很 多 内 容 都 是 在 介绍 如 何 创 建 一 个 更 像 人 而 不 是 更 像 机 器 人 
的 网 络 仆 虫 。 如 果 你 一 直 被 网 站 封杀 却 找 不 到 原因 ， 这 里 有 个 检查 表 ， 可 以 帮 你 诊断 一 下 
问题 出 在 哪里 。 









































首先 ， 如果 你 从 Web 服务 器 收 到 的 页 面 是 空白 的 , 缺少 信息 , 或 者 不 符合 你 的 预期 (或 
者 不 是 你 在 浏览 器 上 看 到 的 内 容 ) ,有 可 能 是 因为 网 站 创建 页 面 的 JavaScript 执 行 有 问题 。 
可 以 看 看 第 11 章 内 容 。 

如 果 你 准备 向 网 站 提交 表单 或 发 出 PosT 请 求 ， 记 得 检查 一 下 页 面 的 内 容 ， 看 看 你 想 提 
交 的 每 个 字段 是 不 是 都 已 经 填 好 并 且 格 式 正确 。 用 Chrome 训 览 器 的 检查 器 之 类 的 工具 ， 
查看 发 送 到 网 站 的 P0ST 请 求 ， 确 认 你 的 每 个 参数 都 是 正确 的 。 

如 果 你 已 经 登录 网 站 却 不 能 保持 登录 状态 ,或 者 网 站 上 出 现 了 其 他 的 “登录 状态 ”异常 ， 
请 检查 你 的 cookie。 确 保 在 加 载 每 个 页 面 时 cookie 都 被 正确 调用 ， 而 且 你 的 cookie 在 
每 次 发 起 请 求 时 都 发 送 到 了 网 站 上 。 
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如 果 你 在 客户 端 遇 到 了 HTTP 错误 ， 尤 其 是 403 禁止 访问 错误 ， 这 可 能 说 明 网 站 已 经 把 

你 的 卫 地 址 当 作 机 器 人 了 ， 不 再 接受 你 的 任何 请 求 。 你 要 么 等 待 你 的 卫 地 址 从 网 站 黑 

单 里 移 除 ， 要 么 就 换个 卫 地 址 (可 以 去 星巴克 上 网 ， 或 者 看 看 第 17 章 的 内 容 )。 要 

确保 不 会 再 次 被 封杀 ， 请 做 到 以 下 几 点 。 

一 确保 你 的 仆 虫 在 网 站 上 的 速度 不 是 特别 快 。 快 速 抓 取 是 一 种 糟糕 的 做 法 ,会 对 网 管 
的 服务 器 造成 沉重 的 负担 ， 还 会 让 你 陷入 违法 境地 ， 也 是 卫 被 网 站 列 入 黑 名 单 的 首 
要 原因 。 给 爬虫 增加 延迟 ， 让 它们 在 夜 深 入 静 的 时 候 运 行 。 切 记 : 匆匆 忙 忙 写 程序 
或 收集 数据 都 是 拙劣 项 目 管理 的 表现 ， 应 该 提前 做 好 计划 ， 避 免 临阵 慌乱 。 

- 还 有 一 件 必 须 做 的 事情 : 修改 你 的 请 求 头 ! 有 些 网 站 会 封杀 任何 声称 自己 是 爬虫 的 
访问 者 。 如 果 你 不 确定 请 求 头 的 值 怎样 才 算 合适 ， 就 用 你 自己 浏览 器 的 请 求 头 吧 。 

- 确认 你 没有 点 击 或 访问 任何 人 类 用 户 通常 不 能 点 击 或 访问 的 信息 (更 多 信息 请 参阅 
二 32 所 

- 如 果 你 用 了 一 大 堆 复 杂 的 手段 才 接 和 网站， 考虑 联系 网 管 吧 ， 告 诉 他 们 你 的 目的 。 
试 试 发 邮件 到 webmaster@< 域名 > 或 admin@< 域名 >， 请 求 网 管 人 允许 你 使 用 限 虫 
抓 取 数据 。 管 理 员 也 是 人 ， 你 可 能 会 对 他 们 非常 配合 地 分 享 数 据 感 到 惊讶 。 
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第 15 章 


用 把 虫 测 研 网 站 











当 研发 一 个 技术 栈 较 大 的 Web 项 目 时 ， 经 常 只 对 栈 底 (项 目 后 期 用 的 技术 ) 定期 进行 测 
试 。 目 前 大 多 数 编程 语言 (包括 Python) 都 拥有 某 种 测试 框架 ， 但 是 网 站 的 前 端 通常 并 没 
有 自动 化 测试 ， 尽 管 前 端 才 是 整个 项 目 中 真正 与 用 户 零 距 离 接触 的 唯一 一 个 部 分 。 

















部 分 原因 是 网 站 经 常 混用 了 许多 不 同 的 标记 语言 和 编程 语言 。 你 可 以 为 JavaScript 部 分 
写 单元 测试 ， 但 没什么 用 ， 因 为 如 果 与 JavaScript 交互 的 HTML 内容 改 变 了 ， 那 么 即使 
JavaScript 可 以 正常 地 运行 ， 也 不 能 完成 网 页 需要 的 动作 。 











网 站 的 前 端 测试 经 常 最 后 才 做 ， 或 者 指派 给 低级 程序 员 去 做 ， 最 多 再 给 他 们 一 个 检查 表 和 
一 个 bug 跟踪 器 。 但 其 实 只 要 再 稍微 努 点 儿 力 ， 我 们 就 可 以 把 检查 表 变 成 一 系列 单元 测 
试 ， 用 网 络 仆 虫 代 殖 人 了 眼 进 行 测试 。 





想象 有 一 个 由 测试 驱动 的 Web 开发 项 目 。 每 天 都 要 做 测试 ， 以 保证 网 络 接口 各 个 部 分 的 功 
能 都 正常 。 每 当 有 新 的 特性 加 入 网 站 ， 或 者 某 个 元 素 的 位 置 发 生 了 改变 ， 就 执行 一 组 自动 
化 测试 。 这 一 章 将 介绍 测试 的 基础 知识 ， 以 及 如 何 用 Python 网 络 爬 虫 测试 各 种 简单 或 复杂 
的 网 站 。 








15.1 测试 简介 
如 果 你 从 没 为 你 的 代码 写 过 和 测试， 那么 现在 开始 再 合适 不 过 了 。 运 行 一 套 测 试 来 保证 你 的 
代码 按 预 期 运行 ， 不 仅 可 以 节约 你 的 时 间 ， 减 少 你 对 bug 的 忧虑 ， 还 可 以 让 升级 变 得 更 加 


简单 
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什么 是 单元 测试 

测试 和 单元 测试 (unit test) 这 两 个 词 基本 可 以 看 成 是 
试 ”时 ， 他 们 真正 的 意思 就 是 “ 写 单元 测试 "。 而 一 些 
的 就 是 某 一 种 测试 。 


虽然 不 同 公 司 的 单元 测试 定义 和 实践 方法 大 相 径 庭 ， 但 是 单元 测试 通常 具有 以 下 特点 。 


。 每 个 单元 测试 用 于 测试 一 个 组 件 的 功能 的 一 个 方面 。 例 如 ， 如 果 从 银行 账户 取出 金额 为 
负数 的 一 笔 款 ， 那 么 单元 测试 就 要 确保 抛 出 适当 的 错误 信息 
通常 ， 一 个 组 件 的 所 有 单元 测试 都 集成 在 同一 个 类 (class) 里 。 你 可 能 有 一 个 测试 是 针 
对 从 银行 账户 取出 金额 为 负数 的 一 笔 款 ， 另 一 个 是 针对 透支 银行 账户 行为 的 单元 测试 。 

。 每 个 单元 测试 都 可 以 完全 独立 地 运行 ， 一 个 单元 测试 需要 的 所 有 启动 (setup) 和 钊 载 
(teardown) 都 必须 通过 这 个 单元 测试 本 身 去 处 理 。 单 元 测试 不 能 对 其 他 测试 造成 干扰 ， 
而 且 不 论 按 何 种 顺序 排列 ， 它 们 都 必须 能 够 正常 地 运行 。 

。 每 个 单元 测试 通常 至 少 包含 一 个 断言 (assertion) 。 例 如 ， 一 个 单元 测试 可 以 断言 2+2 
等 于 4。 有 时 ， 一 个 单元 测试 也 许 只 包含 一 个 失败 状态 (failure state) 。 例 如 ， 如 果 抛 出 
异常 ， 则 测试 失败 ， 如 果 一 切 顺 利 ， 则 测试 默认 通过 。 

。 单元 测试 与 生产 代码 是 分 离 的 。 虽 然 它们 需要 导入 并 使 用 待 测试 的 代码 ， 但 是 它们 一 般 
被 放 在 单独 的 类 和 目录 中 。 


尽管 有 很 多 测试 类 型 可 写 ， 比 如 集成 测试 和 验证 测试 等 ,但 本 章 只 重点 介绍 单元 测试 。 这 
不 仅仅 是 因为 单元 测试 在 当 前 的 测试 驱动 开发 中 十 分 主流 ， ee 
它们 非常 适合 作为 示例 。 另 外 ，Python 自 带 单元 测试 标准 库 ， 下 一 节 就 来 介绍 它 。 


15.2 ”Python 单元 测试 


所 有 标准 版 Python 安装 后 都 有 单元 测试 模块 unittest。 只 要 导入 并 扩展 unittest. 
TestCase 类 ， 就 可 以 实现 下 面 的 功能 


等 价 的 。 通 常 ， 当 程序 员 说 “ 写 测 
程序 员 提 到 写 单元 测试 时 ， 他 们 写 






























































为 每 个 单元 测试 的 开始 和 结束 提供 setup 和 tearDown 函数 
。 提供 不 同类 型 的 “断言 ”语句 ， 让 测试 成 功 或 失败 
。 把 所 有 以 test_ 开头 的 函数 当 作 单 元 测试 运行 ， 忽 略 不 带 test_ 的 函数 


下 面 的 例子 演示 了 如 何 用 Python 实现 一 个 非常 简单 的 单元 测试 来 测试 2+2=4: 

















import unittest 


class TestAddition(unittest.TestCase): 
def setUp(self): 
print('Setting up the test') 
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def tearDown(self): 
print('Tearing down the test') 


def test_ twoplusTwo(self): 
total = 2+2 
self.assertEqual(4, total); 
if _ name == ' main _ 
unittest.main() 


虽然 setup 和 tearDown 函数 在 这 里 并 没有 实现 有 用 的 功能 ， 但 是 仍然 达到 了 演示 的 目的 。 
需要 注意 的 是 ， 这 两 个 函数 在 每 个 测试 开始 和 结束 时 都 会 运行 一 次 ， 而 不 是 在 类 中 所 有 测 
试 开始 之 前 和 结束 之 后 各 运行 一 次 。 


从 命令 行 运行 时 ， 测 试 函数 的 输出 如 下 : 





Setting up the test 
Tearing down the test 


Ran 1 test in 0.000s 


OK 





这 表明 测试 运行 成 功 ，2+2 的 确 等 于 4。 





在 Jupyter notebook 中 运行 单元 测试 
本 章 单元 测试 代码 的 开头 都 是 如 下 形式 : 


if _ name _ == '_ main _ 


unittest.main() 


仅 当 if _name == '_main__' 这 行 代 码 在 Python 中 直接 运行 , 而 不 是 通过 一 个 导 
入 语 向 运行 时 ， 这 个 判断 才 为 真 。 它 可 以 让 你 用 unittest.TestCase 类 在 命令 行 直接 运 
行 你 的 单元 测试 。 

在 Jupyter notebook 中 ， 情 况 有 点 不 一 样 。Jupyter 创建 的 argv 参数 可 能 会 在 单元 测试 
中 引起 错误 ,而 且 由 于 在 测试 运行 之 后 ，unittest 框架 默认 会 退出 Python (这 会 导致 
notebook 内 核发 生 错 误 ) ， 我 们 必须 阻止 这 样 的 现象 发 生 。 


在 Jupyter notebook 中 ， 你 可 以 用 以 下 命令 启动 单元 测试 


if _ name _ == '__ main _': 
unittest.main(argv=[''], exit=False) 
%reset 


第 二 行将 所 有 的 argv 变量 (命令 行 参数 ) 设置 成 一 个 空 字符 串 ， 它 就 会 被 unnittest. 
main 忽略 。 它 还 阻止 了 unittest 在 测试 运行 之 后 退出 。 











%reset 行 也 非常 有 用 ， 因 为 它 重 置 了 内 存 ， 并 销毁 了 所 有 用 户 在 Jupyter notebook 中 创 
建 的 变量 。 如 果 没 有 该 语句 ， 你 在 notebook 中 编写 的 每 个 单元 测试 都 将 包含 此 前 运行 
的 测试 的 所 有 方法 ， 它 们 也 继承 了 unittest.TestCase， 包 括 setUp 和 tearDown 方法 。 
这 就 意味 着 每 个 单元 测试 将 运行 此 前 单元 测试 的 所 有 方法 。 

当然 ， 使 用 %reset 确实 给 给 运行 测试 的 用 户 人 额外 创建 了 一 个 手动 步骤 。 当 运行 测试 时 ， 
notebook 将 弹出 提示 ， 询问 用 户 是 否 要 重 置 内 存 。 输 入 y 后 点 击 回 车 键 就 可 以 了 。 











测试 维基 百科 
将 Python 的 unittest 库 与 网 络 爬 虫 组 合 起 来 ， 就 可 以 实现 网 站 前 端的 测试 了 《除了 
JavaScript 测试 ， 后 面 会 介绍 ) 。 


from UrLLib .request import urlopen 
from bs4 import BeautifulSoup 
import unittest 


class TestWikipedia(unittest.TestCase): 
bs = None 
def setUpClass(): 
url = 'http://en.wikipedia.org/wiki/Monty_Python’ 
TestWikipedia.bs = BeautifulSoup(urlopen(url), 'html.parser') 


def test titleText(self): 
pageTitle = TestWikipedia.bs.find('h1').get text() 
self.assertEqual('Monty Python', pageTitle); 


def test contentExists(self): 
content = TestWikipedia.bs.find('div',{'id':'mw-content-text'}) 
self.assertIsNotNone(content) 


if _ name == '_ main 


unittest.main() 





这 里 有 两 个 测试 : 第 一 个 测试 页 面 的 标题 是 否 为 “Monty Python”， 另 一 个 测试 页 面 是 否 有 
一 个 div 节点 的 id 属性 是 "mw-content-text"。 














需要 注意 的 是 ， 这 个 页 面 的 内 容 只 加 载 一 次 ， 全 局 对 象 bs 由 多 个 测试 共享 。 这 是 通过 
unittest 类 的 函数 setupClass 来 实现 的 ， 这 个 函数 只 在 类 的 初始 化 阶段 运行 一 次 0 
测试 启动 时 都 运行 的 setup 函数 不 同 )。 用 setupClass 代替 setUp 可 以 省 去 不 必要 的 页 下 
加 载 ， 我 们 可 以 一 次 性 抓 取 全 部 内 容 ， 供 多 个 测试 使 用 。 














除了 运行 时 间 和 频次 不 同 之 外 ，setUpClass 和 setup 的 一 个 主要 架构 区 别 是 : setUpClass 
是 一 个 静态 方法 ， 它 属于 类 本 身 并 且 拥 有 全 局 类 变量 ， 而 setup 是 一 个 实例 函数 ， 它 属于 
类 的 一 个 特定 实例 。 这 就 是 为 什么 setup 可 以 设置 自身 的 属性 ( 即 这 个 类 的 特定 实例 )， 而 
setUpClass 只 能 获取 Testwikipedia 类 的 静态 类 属性 。 
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虽然 一 


次 只 测试 一 个 页 面 可 能 不 够 强大 ， 也 没什么 意思 ， 但 是 如 第 3 章 所 述 ， 你 可 以 轻松 





地 创建 一 个 网 络 稚 虫 去 遍历 网 站 中 所 有 的 页 面 。 下 面 我 们 来 看 看 ， 当 把 网 络 爬 虫 和 一 个 向 














页 
重复 执行 
加 载 一 











内容 添加 断言 的 单元 测试 组 合 起 来 时 ， 会 发 生 什么 。 











一 个 测试 的 方法 有 多 种 ， 但 是 针对 要 在 页 面 上 运行 的 每 组 测试 ， 每 个 页 面 必须 只 


次 ， 而 且 你 必须 避免 在 内 存 中 一 次 性 加 入 大 量 的 信息 。 具 体 设 置 如 下 所 示 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import unittest 

import re 

import random 

from urllib.parse import unquote 


class TestWikipedia(unittest.TestCase): 


if __ 





























def test_PageProperties(seLf) : 
self.url = 'http://en.wikipedia.org/wiki/Monty_Python' 
# 测试 遇 到 的 前 16 个 页 面 
for i in range(1, 10): 
self.bs = BeautifulSoup(urlopen(self.url), 'html.parser') 
titles = self.titleMatchesURL() 
self.assertEquals(titles[0], titles[1]) 
self.assertTrue(self.contentExists()) 
self.url = self.getNextLink() 
print('Done!') 
def titleMatchesURL(self): 
pageTitle = self.bs.find('h1').get text() 
urlTitle = self.url[(self.url. index( /wiki/')+6):] 
urlTitle = urlTitle.replace('_ ') 
urlTitle = unquote(urlTitle) 
return [pageTitle.lower(), urlTitle.Tlower()] 
def contentExists(self): 
content = self.bs.find('div',{'id':'mw-content-text'}) 
if content is not None: 
return True 
return False 
def getNextLink(self): 
# 利用 第 3 章 中 介绍 的 技术 返回 页 面 上 的 随机 链接 
Links = self.bs.find('div', {'id':'bodyContent'}).find_all( 
'a', href=re.compile( '^(/wiki/)((?!:).)*$')) 
randomLink = random.SystemRandom().choice(links) 
return 'https://wikipedia.org{}'.format(randomLink.attrs['href']) 
name _ == '_ main  ': 


unittest.main() 




















有 儿 个 地 方 需要 注意 。 首 先 ， 这 个 类 里 面 实际 上 只 有 一 个 测试 。 基 他 的 函数 其 实 都 是 辅 
助 函 数 (helper function)， 即 使 它们 做 了 大 量 的 计算 来 判断 测试 是 否 通过 。 因 为 测试 函数 




















test_PageProperties 使 用 了 断言 语句 ， 所 以 测试 的 结果 最 终 会 传 到 这 些 断 言 所 在 的 测试 函 
数 里 。 











另外 ，contentExists 返回 的 是 布尔 变量 ，titleMatchesURL 返回 的 是 字符 串 列 表 。 为 什么 
要 传递 列表 而 不 是 布尔 变量 呢 ? 将 如 下 布尔 型 断言 的 结果 : 





Traceback (most recent call last): 
File "15-3.py", line 22, in test PageProperties 
self.assertTrue(self.titleMatchesURL()) 
AssertionError: False is not true 


与 assertEquals 语句 的 结果 相 比 : 


Traceback (most recent call last): 
File "15-3.py", line 23, in test_PageProperties 
self.assertEquals(titles[0], titles[1]) 
AssertionError: 'Lockheed U-2' != 'U-2 spy plLane' 


究竟 哪 一 种 方式 调试 起 来 更 方便 呢 ? (在 这 个 示例 中 ， 之 所 以 会 发 生 错 误 ， 是 因为 网 页 发 
生 了 重 定向 ， 即 词 条 https://en.wikipedia.org/wiki/U-2_spy_plane 跳 转 到 了 标题 为 “Lockheed 
U-2” 的 词 条 。) 


15.3 Selenium 单 元 测试 


和 第 11 章 介绍 的 Ajax 抓 取 一 样 ， 在 网 站 测试 中 JavaScript 也 是 一 个 难题 。 幸 运 的 是 ， 我 
们 有 Selenium， 它 是 一 个 可 以 解决 网 站 上 各 种 复杂 问题 的 优秀 的 测试 框架 ， 其 实 ， 它 的 设 
计 初 囊 就 是 用 来 做 网 站 测试 ! 














虽然 这 里 的 单元 测试 都 是 同一 种 语言 (Python) 写 的 ， 但 是 Python 单元 测试 和 Selenium 
单元 测试 的 语法 还 是 有 很 大 不 同 。Selenium 不 要 求 单 元 测试 必须 是 类 的 一 个 国 数 ， 它 的 
“断言 ”语句 也 不 需要 括号 ， 而 且 测 试 通过 时 不 会 有 提示 ， 只 有 当 测 试 失败 时 才 会 给 出 
提示 。 
driver = webdriver.Phantom]JS() 
driver.get('http://en.wikipedia.org/wiki/Monty_Python') 


assert 'Monty Python' in driver.title 
driver.close() 





当 这 个 测试 运行 的 时 候 ， 不 会 输出 任何 信息 。 
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因此 ，Selenium 单元 测试 可 以 比 Python 单元 测试 写 得 更 加 随意 ， 而 断言 语句 甚至 可 以 整合 
到 生产 代码 中 ， 非 常 适合 某 个 条 件 不 能 满足 就 中 断代 码 执行 的 需求 。 


与 网 站 进行 交互 
最 近 ， 我 想 通过 本 地 一 个 小 商家 网 站 上 的 联系 方式 表单 联系 该 商家 ， 结 果 发 现 表单 出 问题 
了 ， 我 点 击 提交 按钮 的 时 候 没 有 反应 。 经 过 一 番 探 索 之 后 ， 我 发 现 这 个 网 站 用 了 一 个 简易 
的 邮件 发 送 表 单 ， 如 果 商 户 联系 方式 的 内 容 有 问题 就 可 以 给 网 管 发 邮件 。 于 是 我 就 用 这 个 
邮箱 地 址 给 他 们 发 了 一 封 邮件 ， 告 诉 他 们 联系 方式 表单 出 了 问题 ， 让 他 们 尽快 解决 ， 虽 然 
不 是 技术 问题 。 

如 果 我 写 一 个 普通 的 仆 虫 来 抓 取 或 测试 这 个 表单 ， 那 么 念 虫 也 许 只 能 复制 表单 的 结构 ， 然 
后 直接 给 我 自己 发 邮件 ， 不 过 抓 不 到 表单 的 内 容 。 那 么 我 怎么 测试 表单 的 功能 才能 保证 它 
在 浏览 器 上 也 可 以 正常 工作 呢 ? 






































虽然 在 前 面 几 章 中 我 们 介绍 过 链接 跳 转 、 表 单 提交 和 其 他 网 站 交互 行为 ， 但 是 我 们 做 那些 
事情 的 共同 初 联 都 是 要 人 避 开 浏览 器 图 形 界面 ， 而 不 是 使 用 浏览 器 。 另 一 方面 ，Selenium 可 
以 在 浏览 器 (这 里 用 PhantomJS 无 头 浏 览 器 ) 中 做 任何 事 ， 包 括 输入 文字 、 点 击 按钮 等 ， 
这 样 就 可 以 找 出 异常 表单 、JavaScript 代码 错误 、HTML 排版 错误 ， 以 及 在 用 户 使 用 过 程 
中 可 能 出 现 的 其 他 问题 。 












































这 个 测试 的 关键 是 使 用 Selenium 的 eLements。 这 个 对 象 在 第 11 章 已 经 简单 介绍 过 了 ， 它 
的 调用 方式 如 下 所 示 : 


usernameField = driver.find_eLement_by_name('uUsername ' ) 


就 像 你 可 以 在 浏览 器 里 对 网 站 上 的 不 同 元 素 执行 一 系列 操作 一 样 ，Selenium 也 可 以 对 任何 
给 定 元 素 执 行 很 多 操作 ， 如 下 所 示 : 








myElement.click() 

myElement.click_and_hold() 

myElement.release() 

myElement.double_click() 

myELement .send_keys_to_eLement('content to enter') 


除了 一 次 性 完成 一 个 元 素 的 多 个 操作 ， 还 可 以 将 一 组 操作 组 合成 一 个 动作 链 (action chain ) 


存储 起 来 ， 然 后 在 一 个 程序 中 执行 一 次 或 多 次 。 动 作 链 可 以 方便 地 组 合 多 个 操作 ， 非 常 有 
用 ， 而 且 其 功能 和 前 面 示例 中 对 一 个 元 素 显 式 调 用 操作 是 完全 一 样 的 。 








为 了 演示 两 种 方式 的 差异 ， 我 们 看 一 看 http://pythonscraping.com/pages/files/form.html 的 表 
单 (是 第 10 章 用 过 的 例子 )。 我 们 用 下 面 的 方式 填写 表单 并 提交 : 
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from selenium import webdriver 

from selenium.webdriver.remote.webelement import WebElement 
from selenium.webdriver.common.keys import Keys 

from selenium.webdriver import ActionChains 


driver = webdriver.PhantomJS(executable_path="'<Path to Phantom JS>') 
driver.get('http://pythonscraping.com/pages/files/form.html') 


firstnameField = driver.find element by_name('firstname') 
lastnameField = driver.find element_ by_name('lastname') 
submitButton = driver.find element_ by_id('submit') 


### 方法 1 ### 
firstnameField.send_keys('Ryan') 
lastnameField.send_ keys('Mitchell') 
submitButton.click() 
############# 并 # 检 检 闪 #### 


### 方法 2 ### 

actions = ActionChains(driver).click(firstnameField).send_keys('Ryan') 
.Click(lastnameField).send_keys('Mitchell') 
.Send_keys(Keys .RETURN) 

actions.perform() 


############# 并 # 检 闪闪 #### 
print(driver.find_eLement_by_tag_name('body ' ) .text) 


driver.close() 


方法 1 在 两 个 字段 上 调用 send_keys， 然 后 点 击 “ 提 交 ” 按 钮 ， 而 方法 2 用 一 个 动作 链 来 
点 击 每 个 字段 并 填写 内 容 ， 这 些 行为 是 在 perforn 调用 之 后 才 发 生 的 。 无 论 用 第 一 个 方法 
还 是 第 二 个 方法 ， 这 个 程序 的 结果 都 一 样 : 




















Hello there, Ryan Mitchell! 


除了 用 来 处 理 命令 的 对 象 不 同 之 外 ， 这 两 个 方法 还 有 一 个 差异 : 注意 第 一 个 方法 提交 表单 
时 点 击 的 是 “提交 ”按钮 ， 而 第 二 个 方法 提交 表单 时 用 的 是 回 车 键 (Keys.RETURN) 。 因 为 实 
现 同 样 效果 的 事件 发 生 顺 序 可 以 有 多 种 ， 所 以 用 Selenium 实现 同样 的 结果 也 有 许多 方式 。 


1. 鼠标 拖 放 动作 

单 击 按钮 和 输入 文字 只 是 Selenium 的 一 个 功能 ， 其 真正 的 亮点 是 能 够 处 理 新 形式 的 Web 
交互 。Selenium 可 以 轻松 地 完成 鼠标 拖 放 动 作 。 使 用 它 的 拖 放 功能 ， 你 需要 指定 一 个 被 拖 
放 的 元 素 以 及 拖 放 的 距离 或 者 拖 放 到 的 目标 元 素 。 















































下 面 的 例子 用 http://pythonscraping.com/pages/javascript/draggableDemo.html 页 面 演示 了 拖 
放 动 作 : 
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from selenium import webdriver 
from selenium.webdriver.remote.webelement import WebElement 
from selenium.webdriver import ActionChains 


driver = webdriver.Phantom]JS(executabLe_path='<Path to Phantom JS>') 
driver.get('http://pythonscraping.com/pages/javascript/draggableDemo.html') 


print(driver.find_ element_ by_id('message').text) 
element = driver.find element_by_id('draggable') 
target = driver.find element by_id('div2') 
actions = ActionChains(driver) 


actions.drag_and_drop(element, target).perform() 


print(driver.find element by_id('message').text) 





示例 页 面 的 message 节点 上 显示 了 两 条 信息 。 第 一 条 是 : 











Prove you are not a bot, by dragging the square from the blue area to the red 
areal 





然后 任务 很 快 就 会 完成 ， 第 二 条 内 容 就 被 打印 出 来 : 
You are definitely not a bot! 


就 像 示例 页 面 上 显示 的 ， 很 多 验证 码 都 使 用 拖 动 来 证 明 访 问 者 不 是 机 器 人 。 虽 然 机 器 人 也 
可 以 长 时 间 拖 着 一 个 元 素 不 放 (就 是 点 击 ， 按 住 ,移动 )， 但 是 也 不 知道 为 什么 用“ 拖 
动 ” 来 检验 一 个 用 户 是 不 是 机 器 人 的 方式 仍然 存在 。 














男 外 ， 这 些 可 拖 放 的 验证 码 库 很 少 使 用 那些 能 够 难 住 机 器 人 的 任务 ， 比 如 “ 拖 动 小 猫 图 
片 ， 放 到 奶牛 图 片 的 上 面 ”( 这 需要 你 能 够 识别 “小 猫 ” 和 “奶牛 ”图 片 ， 同 时 解析 指 
令 ) ;， 相反， 它们 经 常用 数字 排序 或 其 他 一 些 非常 简单 的 任务 ， 就 像 前 面 例子 里 的 拖 放 。 












































当然 ， 这 些 验证 码 库 的 优势 在 于 那些 简单 任务 可 以 实现 大 量 的 变化 ， 而 且 每 种 变化 的 使 用 
频率 都 不 高 ， 另 外 也 不 会 有 人 愿意 花 时 间 去 开发 一 个 能 够 搞定 所 有 任务 的 机 器 人 。 这 个 例 
子 可 以 解释 为 什么 你 不 应 该 在 大 型 网 站 上 使 用 这 种 技术 。 


2. 截屏 
除了 普通 的 测试 功能 ，Selenium 还 有 一 个 有 趣 的 技巧 可 以 让 你 的 测试 更 加 容易 (或 者 让 你 
的 老板 更 喜欢 ) : 截屏 。 截 屏 可 以 在 单元 测试 中 创建 ， 而 无 须 点 击 截屏 按钮 























driver = webdriver.Phantom]JS() 
driver.get('http://www.pythonscraping.com/') 
driver.get_screenshot as_file('tmp/pythonscraping.png') 


这 段 脚 本 会 访问 http:/pythonscraping.com/， 并 将 主页 的 屏幕 截图 保存 在 本 地 的 tmp 文件 来 
中 (该 文件 夹 必须 已 创建 好 ， 以 供 正确 存储 之 用 )。 截 屏 可 保存 为 多 种 文件 格式 。 
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15.4 单元 测试 与 Selenium 单 元 测试 的 选择 


Python 单元 测试 的 语法 严谨 且 元 长 ， 更 适合 为 大 多 数 大 型 项 目 写 测试 ， 而 Selenium 的 测试 
方式 灵活 且 功 能 强大 ， 可 以 成 为 一 些 网 站 功能 测试 的 首选 。 那 么 应 该 使 用 哪个 呢 ? 





案 是 : 不 需要 选择 。Selenium 可 以 轻易 地 获取 网 站 的 信息 ， 而 单元 测试 可 以 评估 这 些 信 


答 
息 是 否 满足 通过 测试 的 条 件 。 因 此 ， 你 没有 理由 拒绝 把 Selenium 导入 Python 的 单元 测试 ， 
两 

















者 组 合 是 最 佳 拍档 。 


例如 ， 下 面 的 程序 创建 了 一 个 带 拖 放 动 作 的 网 站 单元 测试 ， 如 果 一 个 元 素 被 正确 地 拖 放 到 
另 一 个 元 素 里 ， 那 么 推断 条 件 成 立 ， 会 显示 “你 不 是 一 个 机 器 人 ! ”(You are not a bot!)， 














测试 通过 。 





from selenium import webdriver 

from selenium.webdriver.remote.webelement import NebELement 
from selenium.webdriver import ActionChains 

import unittest 


class TestDragAndDrop(unittest.TestCase): 
driver = None 


def 


def 


def 


if _ name_ _ == 


setUp(self): 

self.driver = webdriver.PhantomJS(executable_path='<Path to PhantomJS>') 
url = 'http://pythonscraping.com/pages/javascript/draggableDemo.html' 
seLf .driver.get(urL) 


tearDown(seLf ) : 
print("Tearing down the test") 


test_drag(self): 

element = self.driver.find element_ by_id('draggable') 

target = self.driver.find element_ by_id('div2') 

actions = ActionChains(self.driver) 

actions.drag_and_drop(element, target).perform() 

seLf .assertEquaL('You are definitely not a bot!', 
self.driver.find element_by_id('message').text) 


_main __': 


unittest.main(argv=[''], exit=False) 


基本 上 ， 网 站 上 的 任何 内 容 都 可 以 用 Python 单元 测试 和 Selenium 的 组 合 来 测试 。 其 实 ， 
如 果 再 与 第 13 章 介 绍 的 一 些 图 像 处 理 库 结合 起 来 ， 就 可 以 通过 网 站 截屏 实现 像素 级 测 


试 了 ! 
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第 16 章 





并 行 网 页 抓 取 


网 页 抓 取 的 速度 很 快 ， 最 起 码 通 常 比 雇用 十 儿 个 实习 生 手 动 从 网 上 复制 数据 要 快 很 多 。 当 


然 ， 随 着 技术 的 不 断 进步 和 享乐 适应 ， 人 们 在 某 个 时 刻 会 觉得 这 还 是 “不 够 快 ”。 


们 开始 把 目光 转向 分 布 式 计算 。 





于 是 人 


和 其 他 技术 领域 不 同 ， 网 页 抓 取 通 常 并 不 能 单纯 依靠 “给 问题 增加 更 多 的 进程 ”来 提升 速 
度 。 虽 然 运行 一 个 进程 (process) 很 快 ， 但 是 运行 两 个 进程 未 必 能 将 速度 提升 一 倍 。 而 当 





运行 3 个 进程 时 ， 可 能 你 的 所 有 请 求 都 会 被 远程 服务 器 封杀 ， 因 为 它 认 为 你 是 在 恶 





意 攻 击 。 


然而 ， 在 某 些 场景 中 使 用 并 行 网 页 抓 取 或 者 并 行 线程 (thread) / 进程 仍然 有 些 好 处 : 





。 从 多 个 数据 源 (多 个 远程 服务 器 ) 而 不 只 是 一 个 数据 源 收集 数据 ， 





。 收集 数据 的 同时 ， 在 已 收集 到 的 数据 上 执行 时 间 更 长 /更 复杂 的 操作 (例如 图 像 分 析 或 





者 OCR 处 理 ) ; 


。 从 大 型 Web 服务 收集 数据 , 如 果 你 已 经 付费 , 或 者 创建 多 个 连接 是 使 用 协议 允许 的 行为 。 


16.1 进程 与 线程 


Python 既 支持 多 进程 (multiprocessing)， 也 支持 多 线程 (multithreading)。 多 进程 和 多 线程 





可 以 实现 相同 的 目标 : 同时 执行 两 个 编程 任务 ， 而 不 是 像 传统 线性 方式 那样 一 次 
个 任务 。 








在 计算 机 科学 中 ， 运 行 在 操作 系统 中 的 每 个 进程 都 可 以 拥有 多 个 线程 。 每 个 进程 具有 自己 
独 享 的 内 存 ， 这 意味 着 进程 里 面 的 多 个 线程 可 以 共享 同一 块 内 存 ， 而 多 个 进程 之 间 不 能 共 
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享 内 存 ， 而 且 必 须 显 式 地 进行 通信 。 


用 多 线程 编程 执行 任务 时 ， 多 个 线程 可 以 共享 内 存 ， 因 此 通常 认为 这 比 多 进程 编程 更 简 
单 。 但 是 ， 这 种 便利 也 需要 付出 代价 。 








Python 的 全 局 解释 器 锁 (global interpreter lock，GIL) 会 阻止 多 个 线程 同时 运行 同一 行 代 
码 。GIL 确保 由 所 有 进程 共享 的 内 存 不 会 中 断 〈 例 如 ， 内 存 中 的 字 节 用 一 个 值 写 一 半 ， 用 
另 一 个 值 写 另 一 半 )。 虽 然 这 个 锁 可 以 让 你 写 多 线程 的 程序 ， 并 在 同一 时 刻 获 取代 码 的 运 
行 结果 ， 但 是 这 么 做 存在 性 能 瓶颈 。 


16.2 ”多 线程 抓 取 


Python 3.x 版 本 的 用 户 请 使 用 _thread 模块 ，thread 模块 已 经 被 废弃 。 














7 


下 面 的 示例 展示 了 用 多 个 线程 来 实现 一 个 任务 : 











import _thread 
import time 


def print time(threadName, delay, iterations): 
start = int(time.time()) 
for i in range(0,iterations): 
time.sleep(delay) 
seconds_elapsed = str(int(time.time()) - start) 
print ("{} {}".format(seconds_elapsed, threadName)) 


try: 
_thread.start_new_thread(print_ time, ('Fizz', 3, 33)) 
_thread.start_new_thread(print time, ('Buzz', 5, 20)) 
_thread.start_new_thread(print_time, ('Counter', 1, 100)) 
except: 
print ('Error: unable to start thread') 


while 1: 
pass 


这 参考 了 经 典 的 FizzBuzz 编程 测试 ， 运 行 代码 会 得 到 一 堆 元 长 的 结果 : 


Counter 
Counter 
Fizz 
Counter 
Counter 
Buzz 
Counter 
Fizz 
Counter 


NmmA 上 wwP 请 


这 个 脚本 开启 了 3 个 线程 : 一 个 线程 每 3 秒 打印 一 次 “Fizz”， 另 一 个 线程 每 5 秒 打印 一 次 
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“Buzz”， 第 三 个 线程 每 秒 打印 一 次 “Counter”。 


当 3 个 线程 启动 之 后 ， 程 序 主 线程 首先 命中 while 1 循环 语句 ， 让 程序 (及 其 子 线程 ) 一 
直 运 行 ， 直 到 用 户 输入 Ctrl-C 才 会 终止 


除了 打印 “Fizz” 和 “Buzz”， 你 还 可 以 用 多 线程 实现 一 个 有 用 的 任务 ， 例 如 抓 取 一 个 
网 站 : 





from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import random 


import _thread 
import time 


def get_links(thread_name, bs): 
print('Getting links in {}'.format(thread_name)) 
return bs.find('div', {'id':'bodyContent'}).find_all('a' 
href=re.compile( '^(/wiki/)((?!:).)*$')) 


# 为 线程 定义 一 个 函数 
def scrape_article(thread_name, path): 
html = urlopen('http://en.wikipedia.org{}'.format(path)) 
time.sleep(5) 
bs = BeautifulSoup(html, 'html.parser') 
title = bs.find('h1').get text() 
print('Scraping {} in thread {}'.format(title, thread_name)) 
links = get_links(thread_name, bs) 
if len(links) > 0: 
newArticle = links[random.randint(0, len(links)-1)].attrs['href'] 
print(newArticle) 
scrape_article(thread_name, newArticle) 





# 创建 两 个 线程 
try: 
_thread.start_new_thread(scrape_article, ('Thread 1', '/wiki/Kevin_Bacon',)) 
_thread.start_new_thread(scrape_article, ('Thread 2', '/wiki/Monty_Python',)) 
except: 
print ('Error: unable to start threads') 


while 1: 
pass 


请 注意 函数 里 的 这 行 代码 : 
time.sleep(5) 


因为 你 现在 抓 取 维基 百科 的 速度 几乎 是 使 用 单线 程 时 的 两 倍 ， 所 以 这 行 代码 可 以 防止 脚本 
给 维基 百科 服务 器 增加 太 多 负载 。 其 实 ， 在 请 求 数量 不 是 问题 的 服务 器 上 运行 脚本 时 ， 这 
行 代码 可 以 省 略 。 



































A 


208 | 第 16 章 


如 果 你 想 简单 重 写 一 下 代码 ， 从 而 跟踪 两 个 线程 已 经 看 到 的 相同 文章 ， 以 便 没 有 文章 被 访 
问 过 两 次 ， 该 怎么 办 呢 ? 你 可 以 在 多 线程 环境 中 使 用 列表 ， 就 像 在 单线 程 环境 中 使 用 一 样 : 





visited = [] 
def get_ links(thread_name, bs): 
print('Getting Links in {}'.format(thread_name)) 
Links = bs.find('div', {'id':'bodyContent'}).find_all('a', 
href=re.compile( '^(/wiki/)((?!:).)*$')) 
return [link for link in links if link not in visited] 


def scrape_article(thread_name, path): 
visited.append(path) 


需要 注意 的 是 ， 现 在 scrape_article 函数 的 第 一 个 动作 ， 是 把 当前 网 页 的 路 径 添 加 到 已 经 
浏览 过 的 路 径 列表 中 。 这 会 减 小 抓 取 两 次 的 可 能 性 ， 但 是 不 会 彻底 解决 这 类 问题 。 

如 果 你 运气 不 够 好 ， 可 能 两 个 线程 还 是 会 同时 抓 取 同 一 个 路 径 ， 它 们 都 发 现 该 路 径 不 在 浏 
览 过 的 路 径 列表 中 ， 然 后 同时 将 它 加 入 列表 ， 并 同时 抓 取 内 容 。 不 过 ， 实 践 中 这 类 情况 极 
少 发 生 ， 因 为 假 虫 运行 的 速度 不 一 致 ， 而 且 维基 百科 包含 的 页 面 数 量 巨 大 。 


这 就 是 竞争 条 件 (race condition) 的 一 个 例子 。 由 于 竞争 条 件 难 以 调试 ， 其 至 经 验 丰 富 的 
程序 员 也 搞 不 定 ， 因 此 ， 评 佑 这些 代 码 的 潜在 风险 ， 估 计 其 可 能 性 ， 并 预测 其 影响 的 严重 
性 是 非常 重要 的 。 


在 这 个 示例 的 竞争 条 件 中 ， 疏 虫 在 同一 页 面 上 抓 取 过 两 次 ， 可 能 没 必 要 写 代码 去 处 理 。 


16.2.1 竞争 条 件 与 队列 

虽然 你 可 以 用 列表 进行 线程 间 的 通信 ， 但 是 列表 不 是 专门 为 线程 间 通 信 而 设计 的 ， 误 用 列 
表 很 容易 导致 程序 运行 变 慢 ， 甚 至 在 竞争 条 件 中 产生 错误 。 

虽然 列表 擅长 添加 和 读 取 元 素 ， 但 是 移 除 任意 位 置 的 元 素 时 效率 并 不 高 ， 尤 其 是 处 理 列表 
头 部 的 元 素 时 。 用 下 面 这 行 代码 实 际 上 需要 Python 重 写 整个 列表 ， 这 显然 会 降低 程序 的 运 
行 速 度 。 































































































myList.pop(0) 





更 危险 的 是 ， 列 表 让 原本 只 是 偶然 发 生 的 非 线程 安全 写 人 变 得 十 分 容易 。 例 如 : 


myList[len(myList)-1] 





这 行 代 码 在 多 线程 环境 下 可 能 并 不 能 获取 列表 末尾 的 元 素 ， 另 外 ， 如 果 tlen(myList)-1 的 
值 是 在 另 一 个 操作 修改 列表 之 前 瞬间 计算 的 ， 这 甚至 可 能 引发 异常 。 














注 1: 两 个 线程 起 点 不 同 ， 自 顾 不 暇 ， 难 以 重 羡 。 一 一 译 者 注 
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有 人 可 能 认为 ， 上 面 的 语句 可 以 用 更 “符合 Python 风格 ”的 写法 myList[-1]。 当 然 ， 不 
会 有 人 一 时 糊涂 写 出 了 不 符合 Python 风格 的 代码 (尤其 是 像 Java 程序 员 习 惯 的 写法 
myLtst[myList.Length-1]) ! 但 是 ， 即 使 你 的 代码 写 得 无 可 非议 ， 列 表 也 可 能 出 现 其 他 非 
线程 安全 的 形式 : 











my_list[i] = my_list[i] + 1 
my_list.append(my_list[-1]) 
这 两 种 形式 都 会 导致 竞争 条 件 ， 造 成 意 想不到 的 结果 。 因 此 ， 我 们 需要 抛弃 列表 ， 用 非 列 
表 变 量 向 线程 传递 信息 ! 
# 从 全 局 列表 读 取信 息 
my_message = global_message 
# 向 全 局 列表 写 入 信息 
global_message = 'I've retrieved the message' 
# 对 信息 进行 一 些 处 理 
这 似乎 很 好 ， 直 到 你 意识 到 ， 在 第 一 行 和 第 二 行 语句 之 间 的 一 肯 ， 一 个 线程 可 能 无 意 中 覆 
盖 了 来 自 另 一 个 线程 的 另 一 条 消息 “Tve retrieved the message”( 我 收 到 了 你 的 消息 )。 现 
在 ， 你 只 需要 为 每 个 线程 构建 一 系列 详细 的 个 人 消息 对 象 ， 里 面包 含 一 些 确 定 哪个 线程 得 
到 了 什么 消息 的 逻辑 …… 或 者 也 可 以 使 用 专门 为 此 目的 而 创建 的 Queue 模块 。 


队列 是 一 种 类 似 于 列表 的 对 象 ， 有 先进 先 出 (First In First Out，FIFO) 方法 ， 也 有 后 进 先 
出 (Last In First Out，LIFO) 方法 。 队 列 通过 queue.put('My message' ) 从 任意 线程 接收 数 
据 ， 然 后 再 给 调用 queue.get( ) 方法 的 线程 发 送 数据 。 


队列 并 不 是 设计 用 来 存储 静态 数据 的 ， 而 是 用 来 以 线程 安全 的 方式 传送 静态 数据 的 。 从 队 
列 中 检索 出 来 之 后 ， 数 据 应 该 只 存在 于 检索 它 的 线程 中 。 因 此 ， 队 列 经 常用 于 委托 任务 或 
者 发 送 临 时 通知 。 


这 个 特征 在 网 页 抓 取 中 非常 有 用 。 例 如 ， 假 设 你 想 将 候 虫 收集 的 数据 保存 到 数据 库 中 ， 并 
且 想 让 每 个 线程 都 能 够 快速 保存 数据 。 虽 然 所 有 线程 用 一 个 共享 数据 库 连接 可 能 会 出 现 问 
题 (单个 数据 库 连 接 不 能 并 行 处 理 请 求 )， 但 是 给 每 个 抓 取 线程 单独 配置 一 个 数据 库 连 接 
又 没什么 意义 。 随 着 候 虫 的 规模 不 断 增 大 (你 可 能 会 用 儿 百 个 不 同 的 线程 从 一 百 个 网 站 收 
集 数据 ) ， 可 能 会 出 现 大 量 的 空闲 数据 库 连接 ， 只 是 在 一 个 页 面 加 载 后 偶尔 写 人 一 次 数据 。 


相反 ， 你 可 以 采用 较 少 的 数据 库 线 程 ， 每 个 线程 都 有 独立 的 连接 ， 从 队列 来 回 获取 并 存储 
数据 。 这 样 可 以 实现 更 加 可 控 的 数据 库 连 接 。 










































































































































































from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import random 

import _thread 
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from queue import Queue 
import time 
import pymysql 


def storage(queue): 
conn = pymysql.connect(host='127.0.0.1', unix_socket='/tmp/mysql.sock', 
User='root', passwd='', db='mysql', charset='utf8') 
cur = conn.cursor() 
cur .execute( 'USE wiki_ threads') 
while 1: 
if not queue.empty(): 
article = queue.get() 
Cur.execute('SELECT * FROM pages WHERE path = %s', 
(article["path"])) 
if cur.rowcount == 0: 
print("Storing article {}".format(article["title"])) 
cur .execute('INSERT INTO pages (title, path) VALUES (%s, %s)', \ 
(article["title"], article["path"])) 
conn.commit() 
else: 
print("Article already exists: {}".format(article['title'])) 


visited = [] 
def getLinks(thread_name, bs): 
print('Getting Links in {}'.format(thread_name)) 
Links = bs.find('div', {'id':'bodyContent'}).find_all('a', 
href=re.compile( '^(/wiki/)((?!:).)*$')) 
return [link for link in links if link not in visited] 


def scrape_article(thread_name, path, queue): 

visited.append(path) 

htmL = urlopen('http://en.wikipedia.org{}'.format(path)) 

time.sleep(5) 

bs = BeautifulSoup(html, 'html.parser') 

title = bs.find('h1').get text() 

print('Added {} for storage in thread {}'.format(title, thread_name)) 

queue.put({"title":title, "path":path}) 

Links = getLinks(thread_name, bs) 

if len(links) > 0: 
newArticle = links[random.randint(0, len(links)-1)].attrs['href'] 
scrape_article(thread_name, newArticle, queue) 


queue = Queue() 
try: 
_thread.start_new_thread(scrape_article, ('Thread 1'， 
' /wiki/Kevin_Bacon', queue,)) 
_thread.start_new_thread(scrape_article, ('Thread 2', 
'/wiki/Monty_Python', queue,)) 
_thread.start_new_thread(storage, (queue,)) 
except: 
print ('Error: unable to start threads') 


while 1: 
pass 
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这 个 脚本 创建 了 3 个 线程 : 两 个 线程 用 随机 方式 从 维基 百科 抓 取 网 页 ， 第 三 个 线程 在 
MySQL 数据 库 中 存储 数据 。 关 于 MySQL 和 数据 存储 的 更 多 信息 ， 请 参见 第 6 章 。 





16.2.2 ”threading 模 块 

Python 的 _thread 模块 是 相当 底层 的 模块 ， 虽 然 它 可 以 让 你 对 线程 进行 细致 的 管理 ， 但 是 
由 于 它 没 有 提供 高 级 函数 ， 因 此 你 需要 事 必 躬 杀 ， 用 起 来 比较 费劲 。 而 threading 模块 是 
一 个 高 级 接口 ， 可 以 让 你 轻松 地 使 用 线程 ， 同 时 也 暴露 了 _thread 模块 的 所 有 特性 。 























例如 ， 你 可 以 用 enumerate 之 类 的 静态 国 数 获取 所 有 话 跃 线程 的 列表 ， 这 些 线程 通过 
threading 模块 进行 初始 化 ， 无 须 你 手动 跟踪 它们 。 类 似 地 ， 国 数 activeCount 可 以 获得 
总 线程 数 。_thread 的 许多 国 数 都 换 了 更 方便 、 更 好 记 的 名 字 ， 比 如 获取 当前 线程 名 称 的 
get_ident 就 换 成 了 currentThread。 





下 面 一 个 简单 的 线程 示例 : 

















import threading 
import time 


def print_ time(threadName, delay, iterations): 
start = int(tinme.time()) 
for i in range(0,iterations): 
time.sleep(delay) 
seconds_elapsed = str(int(time.time()) - start) 
print ('{} {}'.format(seconds_elapsed, threadName)) 


threading.Thread(target=print_time, args=('Fizz', 3, 33)).start() 


threading.Thread(target=print_time, args=('Buzz', 5, 20)).start() 
threading.Thread(target=print_ time, args=('Counter', 1, 100)).start() 


这 个 示例 会 产生 和 前 面 -thread 示例 相同 的 “FizzBuzz” 结 果 。 





threading 模块 的 一 个 优点 是 ， 它 可 以 轻松 地 创建 其 他 线程 都 无 法 访问 的 线程 局 部 数据 
(local thread data)。 这 样 做 的 好 处 是 ， 如 果 你 有 若干 线程 ， 它 们 各 自 抓 取 不 同 的 网 站 ， 那 
么 每 个 线程 都 可 以 跟踪 自己 访问 的 页 面 列表 。 








局 部 数据 可 以 随时 创建 ， 调 用 线程 函数 threading.local() 即 可 : 
import threading 
def crawler(url): 
data = threading.local() 
data.visited = [] 


# 抓 取 网 站 


threading.Thread(target=crawler, args=('http://brookings.edu')).start() 
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这 样 就 可 以 解决 线程 之 间 因为 共享 对 象 而 导致 竞争 条 件 的 问题 。 无 论 何 时 ， 只 要 不 需要 共 
享 对 象 ， 就 不 要 共享 ， 保 存在 线程 局 部 内 存 中 即 可 。 为 了 安全 地 在 线程 中 共享 对 象 ， 仍 然 
可 以 使 用 上 一 市 中 的 Queue 模块 。 























threading 模块 不 但 扮演 了 线程 保姆 的 角色 ， 而 且 可 以 对 保姆 的 责任 进行 高 度 定制 。isAlive 
函数 的 默认 行为 是 查看 是 否 有 线程 仍然 处 于 活跃 状态 。 只 有 当 一 个 线程 完成 抓 取 (或 崩 
溃 ) 之 后 ， 该 函数 才 会 返回 True。 














通常 情况 下 ， 扑 虫 都 需要 运行 很 长 时 间 。isAlive 函数 可 以 确保 仆 虫 在 一 个 线程 月 潢 后 重启 : 


threading.Thread(target=crawler) 
t.start() 


while True: 
time.sleep(1) 
if not t.isAlive(): 
t = threading.Thread(target=crawler) 
t.start() 


其 他 的 监控 方法 也 可 以 通过 扩展 threading.Thread 对 象 来 实现 : 


import threading 
import time 


class Crawler(threading.Thread): 
def _ init_ (self): 
threading.Thread._ init_ (self) 
self.done = False 


de 


下 


isDone(seLf ) : 
return self.done 


de 


ee 


run(self): 

time.sleep(5) 

self.done = True 

raise Exception('Something bad happened!') 


t = Crawler() 
t.start() 


while True: 

time.sleep(1) 

if t.isDonel(): 
print('Done') 
break 

if not t.isAlive(): 
t = Crawler() 
t.start() 


示例 中 新 的 Crawter 类 包括 一 个 ispone 方法 ， 可 以 用 来 检查 爬虫 是 否 已 经 完成 抓 取 任 务 。 
这 么 做 的 好 处 是 ， 如 果 还 有 其 他 的 日 志方 法 仍 在 执行 ， 那 么 线程 就 不 能 关闭 ， 但 是 抓 取 工 
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经 完成 了 。 通 常 ，isDone 也 可 以 用 某 种 状态 或 者 进度 条 来 代替 ， 例 如 ， 有 多 少 页 














经 记录 日 志 ， 当 前 已 经 抓 取 到 哪 一 页 ， 等 等 。 





CrawLer.run 过 到 任何 异常 都 会 让 Crawler 类 重启 ， 只 有 当 isDone 返回 True 时 ， 程 序 才 会 
退出 。 








在 Crawler 类 中 对 threading.Thread 进行 扩展 ， 不 但 可 以 改善 腿 虫 的 稳定 性 和 灵活 性 ， 
可 以 让 你 一 次 性 监控 多 个 仆 虫 的 任意 属性 。 


16.3 ”多 进程 抓 取 


Python 的 Processing 模块 可 以 从 程序 主 进程 创建 能 够 被 启动 (start) 和 连接 (join) 的 新 
进程 。 下 面 的 代码 使 用 了 上 一 市 中 的 FizzBuzz 示例 。 








from multiprocessing import Process 
import time 


def print time(threadName, delay, iterations): 
start = int(time.time()) 
for i in range(0,iterations): 
time.sleep(delay) 
seconds_elapsed = str(int(time.time()) - start) 
print (threadName if threadName else seconds _ elapsed) 


processes = [] 

processes.append(Process(target=print_ time, args=('Counter', 1, 100))) 
processes.append(Process(target=print_time, args=('Fizz', 3, 33))) 
processes.append(Process(target=print_time, args=('Buzz', 5, 20))) 


for p in processes: 
p.start() 

for p in processes: 
p.join() 


操作 系统 将 每 一 个 进程 都 看 作 一 个 独立 的 程序 。 如 果 检 查 你 的 操作 系统 的 活动 监视 器 或 任 
务 管理 器 ， 就 会 看 到 类 似 图 16-1 的 情景 。 



































起 Activity Monitor (My Processes) 
拉 v CPU Memory “ Energy Network Q python 四 
Process Name Bytes Written Bytes Read Kind PID User 
python3.6 0 bytes 0 bytes 64 bit 83561 rmitchell 
python3.6 0 bytes 0 bytes 64 bit 83562 rmitchell 
python3.6 0 bytes 0 bytes 64 bit 83563 rmitchell 
python3.6 4KB 14.0 MB 64 bit 76154 rmitchell 
python3.6 0 bytes 0 bytes 64 bit 83560 rmitchell 
运行 :二 /二 
16-1: 在 运行 FizzBuzz 示例 时 ， 有 5 个 Python 进程 同时 运行 
AS wie. 
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图 中 第 四 个 进程 PID 76154 是 Jupyter notebook 实例 ， 如 果 你 运行 iPython notebook 就 会 出 
现 。 第 五 个 进程 83560 是 程序 主 进程 ， 在 程序 首次 运行 时 启动。 操作 系统 分 配 的 PID 都 是 
增 序 的 。 除 非 在 FizzBuzz 脚本 运行 的 同时 ， 你 碰巧 有 另 一 个 快速 分 配 PID 的 程序 ， 否 在 你 
会 看 到 3 个 连 号 的 PID 一 一 83561、83562 和 83563 。 

















这 些 PID 还 可 以 用 os 模块 写 代码 来 查看 : 
import os 


# 打印 子 进程 PID 
os.getpid() 
# 打印 父 进 程 PID 
os.getppid() 





程序 中 的 每 个 进程 用 os .getpid() 都 应 该 会 打印 一 个 不 同 的 PID ， 但 是 用 os.getppid() 打 
印 的 父 进程 PID 是 相同 的 。 





从 纯 技 术 角度 来 说 ， 对 于 这 个 示例 ， 有 两 行 代码 是 不 需要 的 。 如 果 不 写 最 后 的 join 语句 : 


for p in processes : 
p.join() 


父 进程 仍然 会 停止 ， 并 且 会 自动 终止 子 进程 。 但 是 ， 如 果 你 想 在 这 些 子 进程 结束 之 后 再 运 
行 其 他 代码 ， 就 需要 使 用 join 语句 。 



































例如 : 


for p in processes: 
p.start() 
print('Program complete') 








如 果 不 写 join 语句 ， 就 会 出 现下 面 的 结果 : 











Program complete 
1 
2 








如 果 写 了 join 语句 ， 程 序 就 会 等 每 个 子 进程 都 完成 ， 再 运行 后 面 的 代码 : 











for p in processes : 
p.start() 


for p in processes: 
p.join() 
print('Program complete') 


Fizz 
99 
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Buzz 
100 
Program complete 


如 果 你 想 彻 底 停止 程序 的 运行 ， 那 么 当然 可 以 用 Ctrl-C 来 终止 父 进程 。 由 于 终止 父 进程 就 会 


把 所 有 子 进程 一 

















16.3.1 多 进程 抓 取 
可 以 修改 多 线程 维基 百科 抓 取 示 例 ， 用 独立 的 进程 来 替代 独立 的 线程 : 


这 是 








from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import random 


from multiprocessing import Process 
import os 
import time 


visited = [] 
def get_ links(bs): 
print('Getting links in {}'.format(os.getpid())) 
Links = bs.find('div', {'id':'bodyContent'}).find_all('a', 
href=re.compile( '^(/wiki/)((?!:).)*$')) 
return [link for link in links if link not in visited] 


def scrape_article(path): 
visited.append(path) 
html = urlopen('http://en.wikipedia.org{}'.format(path)) 
time.sleep(5) 
bs = BeautifulSoup(html, 'htmL.parser ') 
title = bs.find('h1').get_ text() 
print('Scraping {} in process {}'.format(title, os.getpid())) 
Links = get_links(bs) 
if len(links) > 0: 


并 终止 ， 因 此 用 Ctrl-C 是 安全 的 ， 不 用 担心 会 意外 遗漏 某 个 进程 在 后 台 运 行 。 


newArticle = links[random.randint(0, len(links)-1)].attrs['href'] 


print(newArticle) 
scrape_article(newArticle) 


processes = [] 


processes.append(Process(target=scrape_article, args=('/wiki/Kevin Bacon',))) 
processes.append(Process(target=scrape_article, args=('/wiki/Monty_Python',))) 


for p in processes: 
p.start() 











我们 同样 用 time.steep(5) 人 工 降低 仆 虫 抓 取 的 速度 ， 因 为 这 只 是 作为 一 











以 没 必 要 给 维基 百科 服务 器 造成 太 大 负担 。 


示例 将 用 户 定义 的 thread_name (作为 参数 传递 ) 替换 成 了 os.getpid()， 
作为 参数 传递 ， 而 且 可 以 在 任何 时 候 获 取 。 





个 示例 ， 所 


后 者 不 仅 不 需要 
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输出 结果 如 下 : 


Scraping Kevin Bacon in process 84275 
Getting links in 84275 

/wiki/Philadelphia 

Scraping Monty Python in process 84276 
Getting links in 84276 

/wiki/BBC 

Scraping BBC in process 84276 

Getting links in 84276 
/wiki/Television_Centre,_Newcastle_uypon_Tyne 
Scraping Philadelphia in process 84275 


理论 上 ， 用 独立 的 进程 抓 取 比 用 独立 的 线程 抓 取 要 快 ， 主 要 有 两 个 理由 。 








。 进程 不 受 GIL 的 限制 ， 可 以 同时 运行 同一 行 代码 ， 同 时 调整 同一 个 对 象 其实 是 同一 
个 对 象 的 多 个 实例 化 )。 
。 进程 可 以 在 多 个 CPU 核心 上 运行 ， 如 果 每 个 进程 或 线程 需要 消耗 大 量 的 处 理 器 资源 ， 


这 可 能 会 提升 运行 速度 。 











不 过 ， 这 些 优 点 也 伴随 着 一 大 缺点 。 在 之 前 的 示例 程序 中 ， 所 有 已 发 现 的 URL 都 被 存储 
在 全 局 的 visited 列表 中 。 当 你 用 多 线程 的 时 候 ， 这 个 列表 是 由 所 有 线程 共享 的 ;一 个 线 
程 在 没有 遇 到 少见 的 竞争 条 件 时 ， 不 能 访问 其 他 线程 已 经 访问 过 的 网 页 。 但 是 ， 每 个 进程 
现在 拥有 各 自 独立 的 已 访问 列表 ， 可 以 自由 访问 其 他 进程 已 经 访问 过 的 网 页 。 

















16.3.2 ”进程 间 通 信 
由 于 每 一 个 进程 各 自 使 用 独立 的 内 存 ， 因 此 如 果 它 们 之 间 需 要 通信 就 会 有 麻烦 。 
调整 前 面 的 示例 ， 打 印 当 前 已 经 访问 的 列表 结果 ， 就 可 以 看 到 这 个 问题 : 




















def scrape_article(path): 
visited.append(path) 
print("Process {} list is now: {}".format(os.getpid(), visited)) 


输出 如 下 所 示 : 


Process 84552 list is now: ['/wiki/Kevin Bacon'] 

Process 84553 list is now: ['/wiki/Monty_Python'] 

Scraping Kevin Bacon in process 84552 

Getting links in 84552 

/wiki/Desert_Storm 

Process 84552 list is now: ['/wiki/Kevin Bacon', '/wiki/Desert_Storm'] 
Scraping Monty Python in process 84553 

Getting links in 84553 

/wiki/David_Jason 

Process 84553 list is now: ['/wiki/Monty_Python', '/wiki/David_Jason'] 
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但 是 ， 有 一 种 方法 可 以 让 同一 台 机 器 上 的 进程 互相 通信 ， 那 就 是 用 Python 的 两 个 对 象 : 队 
列 和 管线 (pipe)。 


这 里 的 队列 和 之 前 的 线程 队列 类 似 。 信 息 由 一 个 进程 加 入 ， 再 由 另 一 个 进程 移 除 。 当 信息 
被 移 除 之 后 ， 就 会 从 队列 中 消失 。 由 于 队列 被 设计 成 一 种 “临时 数据 传输 ”的 方法 ， 因 此 
它们 不 适合 存储 像 “ 已 经 访问 的 网 页 列表 ”这 样 的 静态 引用 (static reference)。 


如 果 将 网 页 的 静态 列表 替换 成 某 种 抓 取 委 托 器 (delegator) 会 怎样 呢 ? 爬虫 以 待 抓 取 网 页 
路 径 的 形式 〈 例 如 /wikiMonty_ Python ) ， 人 抓 取 结束 后 再 将 一 
个 “已 发 现 URL” 的 列表 返回 到 另 一 个 独立 的 队列 中 ， 这 个 队列 将 由 抓 取 委托 器 来 处 理 ， 
这 样 就 只 有 新 的 URL 会 被 添加 到 第 一 个 任务 队列 中 。 


























五 









































from urllib.request import urlopen 

from bs4 import BeautifulSoup 

import re 

import random 

from multiprocessing import Process, Queue 
import os 

import time 


def task_delegator(taskQueue, urlsQueue): 
# 为 每 个 进程 初始 化 一 个 任务 
visited = ['/wiki/Kevin Bacon', '/wiki/Monty_Python'] 
taskQueue.put('/wiki/Kevin_ Bacon') 
taskQueue.put('/wiki/Monty_Python') 


while 1: 
# 检查 urLsQueue 中 是 否 存在 新 链接 需要 处 理 
if not UrLsQueue .empty() : 
Links = [Link for Link in urlsQueue.get() if Link not in visited] 
for Link in Links : 
# 向 taskQueue 中 增加 新 链接 
taskQueue.put(Link) 














def get_Links(bs) : 
Links = bs.find('div', {'id':'bodyContent'}).find_all('a' 
href=re.compile( '^(/wiki/)((?!:).)*$')) 
return [link.attrs['href'] for link in links] 


def scrape_article(taskQueue, urlsQueue): 
while 1: 

while taskQueue.empty(): 
# 如 果 任 务 队列 为 空 ， 休 息 109 毫 秒 
# 这 种 情况 应 该 极 少 发 生 
time.sleep(.1) 

path = taskQueue.get() 

html = urlopen('http://en.wikipedia.org{}' .format(path)) 

time.sleep(5) 

bs = BeautifulSoup(html, "htmL.parser ') 

title = bs.find('h1').get text() 








print('Scraping {} in process {}'.format(title, os.getpid())) 
links = get_links(bs) 

# 发 送 这 些 链接 到 委托 器 进行 处 理 

urlsQueue.put(links) 


processes = [] 

taskQueue = Queue() 

urlsQueue = Queue() 

processes.append(Process(target=task_delegator, args=(taskQueue, urlsQueue,))) 
processes.append(Process(target=scrape_article, args=(taskQueue, urlsQueue,))) 
processes.append(Process(target=scrape_article, args=(taskQueue, urlsQueue,))) 


for p in processes: 
p.start() 








这 个 仆 虫 和 原来 的 仆 虫 在 结构 上 有 差异 。 每 个 进程 或 线程 不 再 是 从 它们 各 自 被 分 配 的 起 始 
点 随机 游 走 了 ， 而 是 同心 协力 对 网 站 进行 完整 的 地 我 式 抓 取 。 每 个 进程 可 以 从 队列 中 拉 取 
任何 “任务 ”"， 而 不 再 只 是 自己 发 现 的 链接 。 


16.4 多 进程 抓 取 的 另 一 种 方法 

所 有 多 线程 和 多 进程 抓 取 方 法 都 假设 你 需要 某 种 “父母 般 的 规范 ”来 引导 子 线程 和 子 进 
程 。 你 可 以 一 次 性 局 动 它们 ， 也 可 以 同时 结束 它们 ， 还 可 以 在 它们 之 间 传 递 信息 或 者 让 它 
们 共享 内 存 。 

但 是 如 果 你 的 爬虫 不 需要 这 种 规范 ， 或 者 彼此 之 间 不 需要 通信 呢 ? 那 就 更 没有 理由 去 使 用 
邻 人 抓 狂 的 import _thread 了 。 






























































举 个 例子 ， 假 设 你 想 要 同时 抓 取 两 个 类 似 的 网 站 。 你 已 经 写 了 一 个 腿 虫 ， 它 可 以 抓 取 任意 
一 个 网 站 ， 只 需 稍微 调整 一 下 配置 或 者 一 个 命令 行 参数 。 你 完全 可 以 这 样 做 : 
$ python my_crawLer .py Websitel 


$ python my_crawLer .py website2 


瞧 瞪 ， 这 样 你 就 实现 了 一 个 多 进程 网 络 仆 虫 ， 而 且 还 为 你 的 CPU 节省 了 一 个 父 进程 ! 





然 ， 这 种 方法 也 有 不 足 。 如 果 你 想 在 同一 个 网 站 上 运行 两 个 仆 虫 ， 那 么 就 需要 某 种 方法 
果 证 它们 不 会 抓 取 同 一 个 页 面 。 解 决 办 法 可 能 是 创建 一 个 URL 规则 (“ 雁 虫 1 抓 取 博 客 
看 ， 而 疏 虫 2 抓 取 产 品 页 面 ") 或 者 以 某 种 方式 分 割 网 站 。 























潭 洪 上 星 











另外 ， 你 也 可 以 通过 某 种 中 间 数 据 库 来 协调 两 个 限 虫 。 在 抓 取 新 链接 之 前 ， 惧 虫 可 以 向 数 
据 库 发 送 请 求 ， 询 问 :“ 这 个 页 面 抓 取 过 吗 ? ” 疏 虫 用 数据 库 作为 一 个 进程 间 的 通信 系统 。 
当然 ， 如 果 考 虑 不 周全 ， 这 种 方法 也 可 能 会 导致 出 现 竞 争 条 件 ， 或 者 由 于 数据 库 连接 速度 
太 慢 而 导致 反馈 滞 后 (如果 连 接 的 是 远程 数据 库 ， 可 能 会 出 现 此 类 问题 )。 
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你 可 能 


还 会 发 现 这 种 方法 不 适合 扩展 。Process 模块 可 以 让 你 动态 地 增加 或 减少 抓 取 网 站 
单 


， 甚 至 是 存储 数据 的 进程 数量 。 手 动 开启 它们 需要 一 个 人 手动 运行 脚本 ， 或 者 
独 的 管理 脚本 (无 论 是 bash 脚本 、cron 计划 任务 ， 还 是 其 他 方式 ) 来 做 这 件 事 。 














但 是 ， 我 曾经 用 这 种 方法 取得 了 巨大 的 成 功 。 对 于 小 型 、 一 次 性 的 项 目 ， 这 是 一 种 迅速 获 
取 大 量 信息 的 好 方法 ， 尤 其 是 抓 取 多 个 网 站 的 时 候 。 





220 | 第 16 章 


第 17 章 


远程 抓 取 





在 上 一 章 中 ,你 学 习 了 用 多 线程 和 多 进程 运行 网 络 仆 虫 ， 线 程 间 和 进程 间 的 通信 在 一 定 程 
度 上 是 受 限 的 ， 或 者 说 需要 仔细 规划 。 本 章 将 针对 这 个 问题 给 出 一 个 逻辑 结论 一 一 不 只 是 
在 单独 的 进程 中 运行 仆 虫 ， 而 是 完全 在 单独 的 机 器 上 运行 仆 虫 。 


本 章 内 容 放 在 后 面 来 介绍 还 是 比较 合适 的 。 到 现在 为 止 ， 你 已 经 在 自己 的 电脑 上 通过 命令 
行 运行 了 所 有 的 Python 程序 。 当 然 ， 你 可 能 也 安装 了 MySQL， 以 便 尝 试 复制 真实 的 服务 
器 环境 。 但 是 这 和 实际 的 服务 器 还 是 不 一 样 的 。 正 如 一 句 俗 话 所 说 :“ 如 果 你 喜欢 某 个 东 
西 ， 就 放 开 手 。 

这 一 音 将 介绍 几 种 方法 ， 让 程序 在 不 同 的 机 器 上 运行 ， 或 者 在 你 的 电脑 上 用 不 同 的 人 P 地 址 
运行 。 你 可 能 打算 放弃 这 一 章 ， 因 为 你 现在 还 不 需要 这 些 内 容 ， 但 是 你 可 能 会 感到 惊讶 ， 
原来 自己 已 经 拥有 非常 容易 上 手 的 工具 了 比如 一 些 付 费 的 VPS 或 云 计 算 资 源 )， 而 且 当 
你 停止 在 自己 的 笔记 本 电脑 上 运行 Python 怜 虫 后 ， 生 活 会 变 得 更 加 轻松 。 


17.1 为 什么 要 用 远程 服务 器 

虽然 使 用 远程 服务 器 可 能 像 是 启动 一 个 供 广大 用 户 使 用 的 Web 应 用 时 所 采取 的 必然 步骤 ， 
但 我 们 为 个 人 目的 创建 的 工具 通常 都 必须 在 本 地 和 运行。 启用 远程 平台 的 人 通常 基于 两 个 目 
的 : 需要 更 强 的 计算 能 力 和 更 大 的 灵活 性 ， 以 及 需要 使 用 可 变 IP 地 址 。 



































17.1.1 避免 |jP 地 址 被 封杀 
创建 网 络 仆 虫 的 第 一 原则 是 几乎 一 切 都 可 以 伪造 。 你 可 以 用 非 本 人 的 邮箱 发 送 邮件 ， 通 


221 


过 命令 行 自动 化 鼠标 的 行为 ， 或 者 通过 IE 5.0 浏览 器 耗费 网 站 流量 来 吓 距 网 管 。 


但 是 有 一 样 东西 是 不 能 作假 的 ， 那 就 是 你 的 卫 地 址 。 任 何人 都 可 以 用 这 个 地 址 给 你 写 信 : 
美国 华盛顿 特区 宾夕法尼亚 大 道 西北 1600 号 ， 总 统 ， 邮 编 20500。 但 是 ， 如 有 果 这 封 信 是 从 
新 墨西哥 州 的 阿尔 伯 克 基 市 寄 来 的 ， 那 么 你 可 以 肯定 给 你 写 信 的 不 是 美国 总 统 。、 




















为 阻止 网 站 被 抓 取 而 做 出 的 努力 主要 集中 在 识别 人 类 与 机 器 人 的 行为 差异 上 面 。 封 杀 卫 地 
址 这 种 矫 枉 过 正 的 行为 ， 就 好 像 农民 不 靠 喷 农 药 给 庄稼 杀 虫 ， 而 是 直接 用 火烧 农田 彻底 解 
决 问题 。 它 是 最 后 一 步 棋 ， 不 过 是 一 种 非常 有 效 的 方法 ， 只 要 忽略 危险 卫 地 址 发 来 的 数据 
包 就 可 以 了 。 但 是 ， 使 用 这 种 方法 会 有 以 下 几 个 问题 。 











。 IP 地 址 访问 列表 很 难 维护 。 虽 然 大 型 网 站 通常 都 会 用 自己 的 程序 自动 管理 卫 地 址 访问 
列表 〈 机 器 人 封杀 机 器 人 )， 但 是 至 少 需要 有 人 偶尔 检查 一 下 列表 ， 或 者 至 少 要 监控 问 
题 的 增长 。 
因为 服务 器 需要 根据 IP 地 址 访问 列表 去 检查 每 个 准备 接收 的 数据 包 ， 所 以 检查 接收 数 
据 包 时 会 额外 增加 一 些 处 理 时 间 。 多 个 IP 地 址 乘 以 海量 的 数据 包 会 使 检查 时 间 哇 指数 
级 增长 。 为 了 减少 处 理 时 间 和 降低 处 理 复杂 度 ， 管 理 员 通 常会 对 IP 地 址 进行 分 组 管理 
并 制定 相应 的 规则 ， 比 如 如 果 这 组 P 中 有 一 些 危 险 分 子 ， 就 “把 这 个 区 间 的 所 有 256 
个 地 址 全 部 封杀 ”。 于 是 产生 了 下 一 个 问题 。 

。 封杀 卫 地 址 可 能 会 将 “好 人 ”也 封杀 了 。 例 如 ， 当 我 在 美国 麻 省 欧 林 工程 学 院 读本 科 
的 时 候 ， 有 个 同学 写 了 一 个 可 以 在 http://digg.com/ 网 站 (在 Reddit 流行 之 前 大 家 都 用 
Digg) 上 对 热门 内 容 进行 投票 的 软件 。 这 个 软件 的 服务 器 PP 地 址 被 Digg 封杀 了， 导致 
整个 学 校 宿舍 都 不 能 访问 这 个 网 站 了 。 于 是 这 个 同学 就 把 软件 移 到 了 另 一 个 服务 器 上 ， 
而 Digg 自己 却 失 去 了 许多 主要 目标 用 户 的 访问 量 。 










































































虽然 有 这 些 缺 点 ， 但 封杀 卫 地 址 依然 是 一 种 十 分 常用 的 手段 ， 服 务 器 管理 员 用 它 来 阻止 可 
疑 的 网 络 念 虫 入 侵 服务 器 。 如 果 一 个 IP 地 址 被 封杀 了 ， 那 么 唯一 真正 的 解决 方案 就 是 从 不 
同 的 耳 地 址 进行 抓 取 。 你 可 以 将 你 的 候 虫 部 署 到 一 个 新 的 服务 器 ， 或 者 通过 使 用 Tor 这 样 
的 工具 将 你 的 数据 请 求 路 由 分 发 到 不 同 的 服务 器 。 


17.1.2 ”移植 性 与 扩展 性 
有 些 任务 要 想 通过 个 人 电脑 连 网 来 完成 会 十 分 困难 。 即 使 你 并 不 想 给 任何 一 个 网 站 增加 较 
大 的 负载 ， 但 是 如 果 你 从 很 多 网 站 收集 数据 ， 也 会 需要 更 快 的 网 速 以 及 更 多 的 存储 空间 。 


男 外 ， 自 己 电 脑 上 的 计算 资源 释放 之 后 ， 你 就 可 以 做 更 重要 的 事 了 ( 玩 魔兽 ， 看 电影 ， 
LOL)。 你 也 不 用 担心 电费 和 网 速 了 (在 星巴克 启动 你 的 应 用 ， 合 上 笔记 本 电脑 离开 ,一 
































注 1: 从 技术 上 说 ，IP 地 址 是 可 以 通过 发 送 数 据 包 进 行 伪 装 的 ， 这 是 一 种 分 布 式 拒绝 服务 攻击 (distributed 
denial of service，DDoS) 技术 ,攻击 者 不 需要 关心 接收 的 数据 包 (这样 发 送 请 求 的 时 候 就 可 以 使 
假 亿 地 址 )。 但 是 网 页 抓 取 是 一 种 需要 关心 服务 器 响应 的 行为 ， 所 以 我 们 认为 卫 地 址 是 不 能 造假 的 。 
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切 都 可 以 安全 地 运行 )， 你 还 可 以 在 任何 有 网 络 连接 的 地 方 访问 你 已 收集 的 数据 。 





如 果 你 的 应 用 需要 非常 大 的 计算 能 力 ， 亚 马 逊 AWS 的 一 个 超大 计算 实例 也 不 能 满足 你 的 
需求 ， 那 么 你 可 以 看 看 分 布 式 计 算 (distributed computing)。 这 种 方法 可 以 让 多 个 机 器 并 发 
执行 并 完成 你 的 任务 。 一 个 简单 的 例子 是 你 可 以 用 一 台 机 器 来 抓 取 一 些 网 站 ， 再 用 另 一 台 
机 器 抓 取 另 一 些 网 站 ， 最 后 再 把 收集 的 数据 存储 在 同一 个 数据 库 里 。 


当然 ， 如 前 儿童 中 指出 的 ， 很 多 应 用 都 在 重复 Google 搜索 干 的 事情 ， 但 是 没有 几 个 程序 
可 以 达到 Google 搜索 的 运行 规模 。 分 布 式 计算 是 计算 机 科学 中 一 个 庞大 的 领域 ， 超 出 了 
本 书 的 介绍 范围 。 但 是 ， 学 习 如 何在 远程 服务 器 上 局 动 你 的 应 用 是 必要 的 第 一 步 ， 之 后 你 
一 定 对 当今 计算 机 的 能 力 感到 无 比 惊讶 。 


17.2 Tor 代 理 服务 器 


The Onion Router ( 洋 获 路 由 器 ，Tor) 网 络 是 一 种 卫 地址 匿名 手段 。Tor 是 一 个 由 志愿 者 
服务 器 构成 的 网 络 ， 通 过 由 不 同 服务 器 构成 的 多 个 层 (就 像 洋 萄 ) 把 客户 端 包 在 最 里 面 。 
数据 进入 该 网 络 之 前 会 被 加 密 ， 因 此 任何 服务 器 都 不 能 偷 取 通 信 数 据 。 另 外 ， 虽 然 每 一 个 
服务 器 的 入 站 和 出 站 通信 都 可 以 被 查 到 ， 但 是 要 想 查 出 通信 的 真正 起 点 和 终点 ， 必 须知 道 
整个 通信 链 路 上 所 有 服务 器 的 入 站 和 出 站 通信 细节 ， 而 这 基本 上 是 不 可 能 能 




















Tor 是 人 权 工作 者 和 政治 避难 人 员 与 记者 通信 的 常用 手段 ， 得 到 了 美国 政府 的 大 力 支 持 。 当 
然 ， 它 也 常 被 用 于 非法 活动 ， 所 以 也 是 政府 盯 防 的 目标 《虽然 目前 的 盯 防 并 不 是 很 成 功 ) 。 


Tor 匿名 的 局 限 性 

虽然 本 书 中 用 Tor 的 目的 是 改变 卫 地 址 ， 而 不 是 实现 完全 匿名 ， 但 有 必要 关 
注 一 下 Tor 匿名 方法 的 能 力 和 不 足 。 

虽然 Tor 网 络 可 以 让 你 访问 网 站 时 显示 的 卫 地 址 是 一 个 不 能 跟踪 到 你 的 中 地 
址 ， 但 是 你 在 网 站 上 留 给 服务 器 的 任何 信息 都 会 暴露 你 的 身份 。 例 如 ， 你 登录 
Gmail 账号 后 再 用 Google 搜索 ， 那 些 搜 索 历史 就 会 和 你 的 身份 绑 定 在 一 起 。 
另外 ， 登 录 Tor 的 行为 也 可 能 让 你 的 匿名 状态 处 于 危险 之 中 。2013 年 12 月 ， 
一 个 哈佛 大 学 本 科 生 想 逃 避 期 末 考 试 ， 就 用 一 个 匿名 邮箱 账号 通过 Tor 网 络 
给 学 校 发 了 一 封 炸弹 威胁 信 。 结 果 哈 佛 大 学 的 IT 部 门 通 过 日 志 查 到 ， 在 炸 
弹 威 胁 信 发 来 的 时 候 ，Tor 网 络 的 流量 只 来 自 一 台 机 器 ， 而 且 是 一 个 在 校 学 
生 注 册 的 。 虽 然 他 们 不 能 确定 流量 的 最 初 源头 (只 知道 是 通过 Tor 发 送 的 )， 
但 是 “作案 ”时 间 和 注册 信息 证 据 充 分 ， 而 且 那 个 时 间 段 内 只 有 一 台 机 器 是 
登录 状态 ， 这 就 有 充分 的 理由 起 诉 那 名 学 生 了 。 

登录 Tor 网 络 不 是 一 种 自动 的 匿名 措施 ， 也 不 能 让 你 在 互联 网 上 为 所 欲 为 。 
虽然 它 是 一 个 实用 的 工具 ， 但 是 使 用 的 时 候 一 定 要 谨慎 、 清 醒 ， 并 且 遵 守 道 
德 规范 。 
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要 想 在 Python 里 使 用 Tor， 需 要 先 安 装 并 运行 Tor， 下 一 节 将 介绍 。Tor 服务 很 容易 安装 和 
开启 。 只 要 去 Tor 下 载 页 面 下 载 并 安装 ， 打 开 后 连接 就 可 以 。 不 过 要 注意 ， 当 你 用 Tor 的 
时 候 网 速 会 变 慢 。 这 是 因为 代理 有 可 能 要 先 在 全 世界 的 网 络 上 转 儿 次 才能 到 达 目 的 地 ! 























PySocks 
PySocks 是 一 个 非常 简单 的 Python 代理 服务 器 通信 模块 ， 它 可 以 和 Tor 配合 使 用 。 你 可 以 
从 它 的 网 站 下 载 它 ， 或 者 使 用 任何 第 三 方 模块 管理 器 安装 。 























这 个 模块 的 用 法 很 简单 ， 示 例 代码 如 下 所 示 。 运 行 这 段 代 码 的 时 候 ，Tor 服务 必须 运行 在 
9150 端口 (默认 值 ) 上 : 


import socks 
import socket 
from urllib.request import urlopen 


socks.set_default_proxy(socks.SOCKS5, "localhost", 9150) 
socket.socket = socks.socksocket 
print(urlopen('http://icanhazip.com').read()) 





网 站 http://icanhazip.com/ 只 显示 与 服务 器 相连 的 客户 端的 IP 地 址 ， 可 以 用 来 测试 Tor 是 否 
正常 运行 。 当 程序 执行 之 后 ， 显 示 的 IP 地 址 就 不 是 你 原来 的 卫 地 址 了 。 








如 果 你 想 在 Tor 里面 用 Selenium 和 PhantomJS ， 根 本 不 需要 PySocks， 只 要 保证 Tor 在 运 
行 ， 然 后 增加 service_args 参数 设置 代理 端口 ， 让 Selenium 通过 端口 9150 连接 网 站 就 可 
以 了 : 














from selenium import webdriver 

service args = [ '--proxy=localhost:9150', '--proxy-type=socks5', ] 

driver = webdriver.PhantomJS(executable_path='<path to PhantomJS>', 
service args=service args) 


driver.get('http://icanhazip.com') 
print(driver.page_source) 
driver .close() 


和 之 前 一 样 ， 这 个 程序 打印 的 卫 地 址 也 不 是 你 原来 的 卫 地 址 ， 而 是 你 通过 Tor 客户 端 获 


得 的 卫 地 址 。 





17.3 ”远程 主机 

一 且 你 使 用 信用 卡 ， 完 全 匿名 的 效果 就 消失 了 ， 但 是 把 网 络 店 虫 放 在 远程 主机 上 可 以 大 幅 
提升 它们 的 运行 速度 。 这 是 因为 你 不 仅 可 以 自由 购买 服务 器 的 使 用 时 间 ， 使 用 更 强大 的 机 
器 ， 而 且 网 络 连 接 在 到 达 目 的 地 之 前 也 不 需要 在 Tor 网 络 中 长 途 跋涉 。 
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17.3.1 从 网 站 主机 运行 

如 果 你 拥有 个 人 网 站 或 公司 网 站 ， 那 么 你 可 能 已 经 知道 如 何 使 用 外 部 服务 器 运行 你 的 网 络 
谎 虫 了 。 即 使 是 一 些 相 对 封 困 的 Web 服务 器 ， 没 有 可 用 的 命令 行 接 入 方式 ， 你 也 可 以 通过 
Web 界面 对 程序 进行 控制 。 


如 果 你 的 网 站 部 署 在 Linux 服务 器 上 ， 该 服务 器 上 应 该 已 经 运行 了 Python。 如 果 你 用 的 是 
Windows 服务 器 ， 可 能 就 疫 那么 幸运 了 ， 你 需要 仔细 检查 一 下 Python 有 没有 安装 ， 或 者 问 
问 网 管 可 不 可 以 安装 。 

大 多 数 小 型 网 络 主机 都 会 提供 一 个 叫 cPanel 的 软件 ， 用 来 提供 网 站 和 后 台 服 务 的 基本 管理 


功能 和 信息 。 如 果 你 接 入 了 cPanel， 就 可 以 设置 Python 在 服务 器 上 运行 一 一 进入 “Apache 
Handlers”， 然 后 增加 一 个 handler (如 还 没有 的 话 ) : 




















Ro 
































Handler: cgi-script 

Extension(s): .py 
这 会 告诉 服务 器 所 有 的 Python 脚本 都 将 作为 一 个 CGI 脚本 运行 。CGI 就 是 通用 网 关 接 口 
(Common Gateway Interface) ， 是 任何 一 个 可 以 在 服务 器 上 运行 ， 并 且 能 动态 地 生成 内 容 并 
显示 在 网 站 上 的 程序 。 把 Python 脚本 显 式 地 定义 成 CGI 脚本 ， 就 是 给 服务 器 权限 去 执行 
Python 脚本 ， 而 不 只 是 在 浏览 器 上 显示 它们 或 者 让 用 户 下 载 它们 。 








写 完 Python 脚本 后 上 传 到 服务 器 ， 然 后 把 文件 权限 设置 成 755， 让 它 可 执行 。 通 过 浏览 器 
找到 程序 上 传 的 位 置 〈 也 可 以 写 一 个 惟 虫 来 自动 做 这 件 事 情 ) 就 可 以 执行 程序 。 如 果 你 担 
心 在 公共 领域 执行 脚本 不 安全 ， 可 以 采取 以 下 两 种 方法 。 








。 把 脚本 存储 在 一 个 隐 临 或 深层 的 URL 里 ， 确 保 其 他 URL 链接 都 不 能 接 和 这 个 脚本 ， 这 
样 可 以 避免 搜索 引擎 发 现 它 。 
用 密码 保护 脚本 ， 或 者 在 执行 脚本 之 前 用 密码 或 加 密令 牌 进 行 确 认 。 








确实 ， 通 过 这 些 原本 用 来 显示 网 站 的 服务 来 运行 Python 脚本 有 点 儿 复 杂 。 比 如 ， 你 可 能 会 
发 现 网 络 爬 虫 运行 时 网 站 的 加 载 速度 变 慢 了 。 其 实 ， 在 整个 抓 取 任务 完成 之 前 ， 页 面 都 不 
会 加 载 (得 等 到 所 有 print 语句 的 输出 内 容 都 显示 完 )。 这 可 能 需要 几 分 钟 ， 几 小 时 ， 甚 至 
永远 也 完成 不 了 ， 要 看 程序 的 具体 情况 了 。 虽 然 它 最 终 一 定 能 完成 任务 ， 但 是 你 可 能 想 看 
到 实时 的 结果 ， 这 样 就 需要 一 台 真 正 的 服务 器 了 。 




















17.3.2 ”从 云 主 机 运行 

以 前 ， 程 序 员 会 为 了 在 计算 机 上 运行 或 者 存储 自己 的 程序 而 付费 。 个 人 电脑 发 明之 后 ， 这 
似乎 没 必 要 了 人 们 可 以 直接 在 自己 的 电脑 上 写 程序 并 运行 。 现 在 ， 应 用 程序 的 计算 需 
求 已 经 超越 了 微 处 理 器 的 发 展 速 度 ， 于 是 程序 员 又 开始 为 计算 能 力 付费 了 。 
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但 是 ， 这 一 次 用 户 不 再 为 单 台 物理 机 器 的 计算 能 力 付 费 ， 而 是 为 多 台 机 器 总 共 的 计算 能 
十 费 。 这 种 云 状 计算 系统 的 计算 能 力 可 以 按 使 用 时 间 进 行 付费 。 例 如 ， 当 计算 的 低 成 本 比 
即时 性 更 重要 时 ， 亚 马 进 的 EC2 允许 用 户 使 用 “竞价 型 实例 ”(spot instance) ， 可 以 先 竟 
介 再 使 用 云 计 算 服务 。 

















计算 实例 还 可 以 进行 定制 ， 也 可 以 根据 应 用 程序 的 实际 需求 进行 设置 ， 选 项 有 “高 内 
存 ”“ 快 速 计算 ”“ 大 容量 存储 "。 虽 然 网 络 爬 虫 不 需要 很 多 内 存 ， 但 是 你 可 能 需要 较 大 的 
存储 空间 或 快速 的 计算 能 力 来 实现 仆 虫 的 更 多 功能 。 如 果 你 要 做 大 量 的 自然 语言 处 理 、 
OCR 或 者 路 径 查 找 〈 就 像 “ 维 基 百 科 六 度 分 隔 理论 ”问题 ) 之 类 的 工作 ， 选 择 “ 快 速 计 
算 ” 实 例 就 可 以 。 如 果 你 要 抓 取 大 量 数据 ， 存 储 许多 文件 ， 或 者 进行 大 数据 分 析 ， 可 能 就 
需要 用 带 大 容量 存储 的 计算 实例 了 。 












































虽然 云 计算 的 花费 可 能 是 个 无 底 洞 ， 但 是 写作 本 书 的 时 候 ， 启 动 一 个 计算 实例 最 便宜 只 
每 小 时 1.3 美 分 (亚马逊 EC2 的 micro 实例 ， 其 他 实例 会 更 贵 )，Google 最 便宜 的 计算 实 
例 是 每 小 时 4.5 美 分 ， 最 少 需 要 用 10 分 钟 。 考 虑 计算 能 力 的 规模 效应 ， 从 大 公司 购买 一 个 
小 型 云 计算 实例 的 费用 跟 自己 买 一 台 专 业 实体 机 的 费用 差不多 一 一 不 过 用 云 计算 不 需要 雇 
人 去 维护 设备 。 




















一 、 





























显然 ， 一 步 一 步 设置 和 运行 云 计算 实例 的 教程 超出 了 本 书 介绍 范围 ， 不 过 你 自己 其 实 不 需 
要 这 类 教程 。 亚 马 逊 和 Google (还 有 不 计 其 数 的 小 公司 ) 的 云 计算 产品 正在 激烈 地 竞争 ， 
它们 已 经 尽量 简化 新 实例 的 设置 步 又， 你 只 需 填 个 应 用 名 称 ， 提 供 一 下 信用 卡号 就 可 以 
了 。 写 作 本 书 的 时 候 ， 亚 马 进 和 Google 还 为 新 用 户 提供 了 价值 几 百 美元 的 免费 计算 时 间 。 

































































设置 好 计算 实例 之 后 ， 你 就 有 了 新 卫 地 址 、 用 户 名 ， 以 及 可 以 通过 SSH 连接 实例 的 公私 
密 钥 了 。 后 面 要 做 的 事情 和 你 在 实体 服务 器 上 做 的 一 样 一 一 当然 ， 你 不 再 需要 担心 硬件 维 
护 ， 也 不 用 运行 复杂 的 监控 工具 了 。 














对 于 紧急 且 复 杂 的 任务 来 说 ， 特 别 是 如 果 你 缺乏 处 理 SSH 和 密 钥 对 的 经 验 ， 我 发 现 Google 
的 云 平台 (Google’s Cloud Platform) 实例 更 容易 立刻 建立 并 运行 起 来 。 它 的 启动 器 很 简单 ， 
并 且 在 启动 后 还 有 一 个 按钮 可 以 用 来 在 浏览 器 中 查看 SSH 终端 ， 如 图 17-1 所 示 。 

















i 【2 ryan_e_mitchell@lamp-1-vm: ~ 


a Secure | https://ssh.cloud.google.com/projects/api-scraper/zones/us-central1-f/instances/lamp-1-vm?authuser=0&hl=en_US&proje... 














图 17-1: 正在 运行 的 Google 云 平台 VM 实例 的 基于 浏览 器 的 终端 
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17.4 其 他 资源 


很 多 年 以 前 ,“ 在 云端 ”运行 基本 上 是 那些 既 懂 理 论 又 具有 服务 器 运 维 经 验 的 人 之 间 的 高 
谈 阔 论 。 但 是 今天 ， 由 于 云 计算 技术 的 不 断 普及 ， 以 及 云 计算 供应 商 之 间 的 竞争 ， 云 计算 
工具 已 经 有 了 极 大 的 改善 。 


如 果 你 想 创 建 规模 更 大 或 更 复杂 的 候 虫 ， 在 创建 云 计 算 平台 以 收集 和 存储 数据 时 ， 可 能 还 




















Marc Cohen、Kathryn Hurley 和 Paul Newson 合 著 的 Google Compute Engine 是 通过 Python 
和 JavaScript 使 用 Google 云 计算 平台 的 第 一 手 资料 。 书 中 不 仅 介绍 了 Google 的 用 户 界 面 ， 
还 介绍 了 命令 行 和 脚本 工具 ， 你 可 以 利用 它们 增强 你 的 应 用 的 灵活 性 。 























如 果 你 更 喜欢 使 用 亚马逊 的 产品 ，Mitch Garnaat 的 Python and AWS Cookbook 是 一 本 非常 实 
用 的 手册 ， 可 以 让 你 顺利 启动 AWS 服务 ， 还 会 告诉 你 如 何 创建 并 运行 一 个 可 扩展 的 应 用 。 
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网 页 抓 取 的 法 律 与 道德 约束 





2010 年 ， 软 件 工 程 师 Pete Warden 构建 了 一 个 网 络 扑 虫 来 从 Facebook 上 收集 数据 。 他 
一 共 收 集 了 大 约 两 亿 名 Facebook 用 户 的 用 户 名 、 位 置 、 好 友和 兴趣 爱好 等 信息 。 当 然 ， 
Facebook 发 现 了 这 一 行为 ， 并 给 他 发 了 一 封 勒 令 停止 通知 国 ， 他 照 做 了 。 有 人 问 他 为 什么 
要 依从 Facebook 的 要 求 ， 他 说 :“ 大 数据 虽然 很 便宜 ， 但 律师 费 可 不 便宜 。 


在 这 一 章 里 ， 我 们 将 介绍 美国 与 网 页 抓 取 相关 的 法 律 ( 以 及 一 些 国际 法 )， 并 学 习 如 何 分 
析 网 页 抓 取 行为 的 法 律 和 道德 约束 。 


在 阅读 下 面 的 内 容 之 前 ， 希 望 你 能 理解 : 我 是 一 名 软件 工程 师 ， 不 是 律师 。 不 要 把 在 本 章 
或 本 书 其 他 章节 学 到 的 法 律 知 识 看 成 专业 的 法 律 意 见 或 规范 。 虽 然 我 认为 自己 有 足够 的 能 
力 ， 可 以 讨论 网 页 抓 取 行 为 的 法 律 和 道德 约束 ， 但 是 在 做 那些 可 能 要 承担 法 律 责任 的 网 页 
抓 取 项 目 之 前 ， 你 还 是 应 该 咨询 一 下 律师 ， 而 不 是 软件 工程 师 。 

本 章 的 目的 是 为 你 提供 一 个 框架 ， 便 于 你 理解 和 讨论 网 页 抓 取 的 各 种 合法 性 问题 ， 例 如 
知识 产权 、 未 授权 的 计算 机 访问 和 服务 器 的 使 用 ,但 是 本 章 内 容 并 不 能 作为 实际 的 法 律 
建议 。 


18.1 商标、 版权、 专利 

现在 ， 我 们 开始 上 知识 产权 第 一 课 ! 知识 产权 有 3 种 基本 类 型 ; 商标 (用 TM 或 @ 表 示 )、 
版 权 (用 © 表示 ) 和 专利 (有 时 会 用 文字 说 明 某 发 明 受 专 利 保护 或 注 明 专利 号 ,但 通常 没 
有 任何 说 明 )。 





































































































228 


专利 只 是 用 来 声明 发 明 的 所 有 权 。 图 片 、 文 字 和 任何 信息 本 身 不 能 获得 专利 权 。 虽 然 有 些 
专利 (比如 软件 专利 ) 并 不 像 我 们 通常 理解 的 “发 明 创造 ”那样 是 有 形 的 ， 但 是 要 注意 ， 
获得 专利 权 的 是 这 些 无 形 的 东西 (技术 )， 而 不 是 专利 报告 中 的 内 容 。 除 非 你 利用 抓 取 来 
的 设计 图 构建 什么 ,或 者 有 人 为 某 种 网 页 抓 取 方法 获得 了 专利 保护 ， 否 则 你 不 太 可 能 在 网 
页 抓 取 时 侵犯 他 人 的 专利 权 。 


虽然 商标 也 不 太 可 能 成 为 问题 ， 但 还 是 需要 注意 的 。 美 国 专利 商标 局 对 商标 的 定义 如 下 : 





























商标 (trademark ) 是 一 个 单词 、 词 组 、 符 号 和 /或 设计 ， 用 来 标识 和 区 分 一 种 商 
品 的 来 源 。 服 务 标识 (service mark ) 是 一 个 单词 、 词 组 、 符 号 和 /或 设计 ， 用 来 
标识 和 区 分 一 种 服务 而 非 商品 的 来 源 。 术 语 “ 商 标 ” 通 常 既 可 表示 商标 ， 也 可 表 
示 服 务 标 识 。 





除了 当 我 们 提 到 商标 时 通常 会 想到 的 传统 的 单词 / 符号 商标 ， 其 他 的 描述 性 特征 也 可 以 作 
为 商标 。 比 如 ， 容 器 的 外 形 (可 口 可 乐 的 瓶子 )， 或 者 一 种 颜色 (美国 欧文 斯 科 宁 的 Pink 
Panther 玻璃 纤维 隔 热 层 的 粉色 )。 




















和 专利 不 同 ， 商 标的 所 有 权 很 大 程度 上 由 使 用 场景 决定 。 比 如 ， 如 果 我 想 在 博客 里 发 一 
篇 带 可 口 可 乐 图 标的 文章 ， 我 完全 可 以 这 样 做 (只 要 我 没有 瞳 示 我 的 博文 是 可 口 可 乐 赞 
助 或 发 布 的 就 行 )。 但 是 ， 如 果 我 想 制造 一 种 新 的 软饮料 ， 在 外 包装 上 使 用 可 口 可 乐 的 图 
标 ， 那 明显 就 是 侵犯 了 可 口 可 乐 的 商标 权 。 同 样 道理 ， 虽 然 我 可 以 把 饮料 外 包装 涂 成 Pink 
Panther 的 粉色 ， 但 是 我 不 能 用 同样 的 颜色 发 行 一 款 新 的 家 用 隔 热 层 产品 。 


版 权 法 

商标 和 专利 有 一 个 共同 点 ， 就 是 它们 必须 正式 注册 才能 得 到 认可 。 与 一 般 认识 不 同 的 是 ， 
受 版 权 保护 的 材料 并 不 需要 注册 。 究 竟 是 什么 使 得 图 像 、 文 字 、 音 乐 等 拥有 版 权 呢 ? 并 
不 是 说 在 网 页 下 面 加 上 “保留 所 有 权利 ”(All Rights Reserved) 就 拥有 了 版 权 ， 也 不 是 说 
“出 版 发 行 的 ”就 拥有 版 权 ， 而 “未 出 版 发 行 的 ”就 没有 。 任 何 材料 ， 只 要 你 创作 出 来 ， 
它 就 会 自动 受到 版 权 法 的 保护 。 






































《保护 文学 和 艺术 作品 伯尔尼 公约 》 是 1886 年 由 瑞士 政府 在 伯尔尼 首次 公布 的 版 权 国 际 标 
准 。 这 个 公约 的 基本 含义 是 所 有 成 员 国 都 必须 像 对 待 自己 国家 公民 的 作品 一 样 ， 对 其 他 成 
员 国 公民 的 作品 进行 版 权 保护 。 其 实 ， 这 就 是 说 作为 一 个 美国 公民 ， 如 果 你 涉嫌 抄袭 一 个 
法 国 公 民 的 作品 ， 也 要 承担 法 律 责任 〈 反 之 亦 然 ) 。 

显然 ， 版 权 是 网 络 爬 虫 需要 关注 的 内 容 。 如 果 我 抓 取 别人 的 博客 内 容 然后 放 到 自己 的 博客 
上 ， 我 就 可 能 会 车 上 官司 。 不 过 ， 我 有 几 层 保护 ， 可 以 根据 博客 抓 取 项 目的 实际 影响 ， 帮 
我 进行 辩护 。 




















网 页 抓 取 的 法 律 与 道德 约束 | 229 








首先 ， 版 权 保护 只 涉及 有 创造 性 的 作品 ， 而 不 涉及 统计 数据 或 事实 。 好 在 许多 网 络 扑 虫 抓 
取 的 都 是 事实 和 统计 数据 。 虽 然 用 一 个 网 络 谎 虫 从 网 络 上 收集 诗歌 ， 然 后 显示 在 你 自己 的 
网 站 上 有 可 能 是 违反 版 权 法 的 ， 但 是 如 果 它 收集 不 同时 间 段 发 表 的 诗歌 数量 就 不 违法 了 。 
诗歌 是 一 种 创造 性 作品 ， 但 是 按 月 对 网 站 上 发 表 的 诗歌 进行 字数 统计 就 没什么 创造 性 了 。 























如 果 数 据 是 公司 发 布 的 价格 、 高 管 的 姓名 或 者 其 他 事实 性 的 信息 ， 那 么 即使 完全 照搬 (不 
是 根据 抓 取 的 原始 数据 进行 整合 或 计算 ) 也 不 会 违反 版 权 法 。 





按照 《数字 千年 版 权 法 》(Digital Millennium Copyright Act，DMCA) ， 即 使 是 有 版 权 的 内 
容 也 可 以 以 合理 理由 直接 使 用 。DMCA 列举 了 一 些 自动 处 理 版 权 内 容 的 规则 。DMCA 非 
常 长 ， 包 含 了 从 电子 书 到 电话 的 许多 细则 。 但 是 ， 有 两 点 与 网 页 抓 取 相 关 。 


。 根据 “安全 港 ”保护 原则 ， 如 果 你 从 一 个 你 有 理由 相信 只 包含 无 版 权 材料 的 数据 源 抓 取 
数据 ， 但 是 有 人 曾 向 该 数据 产 提交 过 有 版 权 的 材料 ， 那 么 只 要 你 在 收 到 通知 后 把 有 版 权 
的 材料 删除 ， 就 可 以 免责 。 

。 你 不 能 为 了 收集 信息 而 故意 绕 开 安全 措施 ， 比 如 密码 保护 。 


此 外 ，DMCA 还 承认 《美国 法 典 》 下 的 “合理 使 用 ”条 款 适 用 ， 根 据 “ 安 全 港 ” 保 护 原 
则 ， 如 果 受 版 权 保 护 的 材料 被 合理 地 使 用 ，DMCA 可 能 不 会 发 出 删除 (take-down) 通知 。 


总 之 ， 未 经 作者 或 版 权 所 有 者 授权 ， 你 不 可 以 直接 发 表 有 版 权 的 材料 。 如 果 你 以 数据 分 析 
为 目的 ， 把 可 以 自由 访问 的 有 版 权 的 材料 保存 在 自己 的 非 公开 数据 库 中 ， 这 是 合法 行为 。 
如 果 你 把 数据 展示 到 网 站 上 供 人 们 浏览 或 下 载 ， 就 不 算 合法 了 。 如 有 果 你 分 析 数 据 库 里 的 
数据 ， 然 后 发 布 作品 的 字数 统计 信息 、 按 作品 数量 对 作者 排序 ， 或 发 布 其 他 的 数据 分 析 结 
果 ， 这 是 合法 行为 。 如 果 你 还 引用 了 一 些 原文 或 简单 的 样本 数据 来 阐述 自己 的 观点 ， 也 是 
可 以 的 ， 但 是 使 用 之 前 最 好 看 看 《美国 法 典 》 里 的 “合理 使 用 ”条 款 。 


18.2 ”侵害 动产 

侵害 动产 与 我 们 常识 中 的 “违法 ”有 着 本 质 的 区 别 ， 动 产 的 范围 不 包括 不 动产 和 土地 ， 而 
是 指 那 些 可 移动 的 财产 (比如 服务 器 )。 如 果 接 入 那些 不 允许 你 接 入 或 使 用 的 财产 ， 就 会 
侵害 动产 。 


在 云 计 算 时 代 ， 人 们 可 能 不 把 Web 服务 器 看 作 一 种 真实 有 形 的 资源 。 但 其 实 服务 器 不 仅 由 
许多 昂贵 的 组 件 构成 ， 而 且 它 们 还 需要 空间 存放 、 监 控 、 制 冷 ， 以 及 大 量 的 电力 供应 。 据 
估计 ,全球 10% 的 电力 都 是 由 计算 机 消耗 的 。 〈 如 果 你 自己 的 电费 构成 并 非 如 此 ， 可 以 考 
虑 一 下 Google 庞大 的 服务 器 农场 ， 每 一 座 农场 都 需要 与 大 型 电站 连接 。) 

















































































































es 














注 1: Bryan Walsh, “The Surprisingly Large Energy Footprint of the Digital Economy [UPDATE]” , TIME.com, 
August 14, 2013. 
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虽然 服务 器 是 很 昂贵 的 资源 ， 但 是 从 法 律 的 角度 看 ， 一 个 非常 有 趣 的 现象 是 ， 网 站 管理 员 
非常 希望 人 们 使 用 他 们 的 资源 〈 即 接 和 人 他 们 的 网 站 )， 但 同时 又 不 希望 资源 被 过 快 地 消耗 








掉 。 通 过 浏览 器 看 一 下 网 站 可 以 ， 但 是 发 动 大 规模 的 DDoS 攻击 显然 就 不 允许 了 。 

只 有 满足 下 列 3 个 条 件 ， 网 络 疏 虫 的 行为 才 构 成 侵害 动产 。 

缺少 许可 
由 于 Web 服务 器 对 所 有 人 开放 ， 所 以 它们 一 般 也 会 向 网 络 朴 虫 “ 提 供 许可 "。 但 是 ,很 
多 网 站 的 服务 协议 条 款 都 明确 地 禁止 使 用 聆 虫 。 另 外 ， 任 何 勒令 停止 通知 国 显 然 撤销 了 
这 类 许可 。 

造成 实际 的 损害 

















服务 器 是 很 昂贵 的 。 除 了 服务 器 成 本 ， 如 果 你 的 腿 虫 把 网 站 拖 震 了 ， 或 者 限制 了 网 站 为 
其 他 用 户 提供 服务 的 能 力 ， 这 些 都 算是 你 对 网 站 造成 的 “损害 ”。 
故意 而 为 


这 个 ， 你 懂 的 | 


I 























只 有 3 个 条 件 都 满足 才 算 是 侵害 动产 。 然 而 ， 如 果 你 违反 了 服务 协议 ， 但 并 未 造成 实际 的 
损害 ， 不 要 以 为 你 就 不 算 违 法 。 可 能 你 的 行为 已 经 违法 了 版 权 法 、DMCA、《 计 算 机 欺诈 
与 滥用 法 》 (The Computer Fraud and Abuse Act，CFAA， 后 面 会 详细 介绍 )， 或 者 其 他 可 以 
处 理 网 络 候 虫 犯罪 行为 的 法 律 。 


















































请 限制 你 的 爬虫 

过 去 ，Web 服务 器 比 个 人 电脑 要 强大 得 多 。 其 实 ,“ 服 务 器 ”的 部 分 定义 就 是 指 “ 大 型 
计算 机 ”。 而 现在 情况 似乎 反 过 来 了 。 比 如 ,我 的 个 人 电脑 拥有 一 个 3.5GHz 处 理 器 和 
8G 内 存 。 亚 马 逊 的 一 个 中 等 云 计 算 实例 (写作 本 书 的 时 候 ) 却 只 有 3GHz 处 理 器 和 
4G 内 存 。 
如 果 网 速 正 常 ， 还 有 一 台 可 以 持续 抓 取 的 专用 设备 ， 即 使 是 一 台 个 人 电脑 也 可 以 给 许 
多 网 站 造成 沉重 和 负担， 甚至 可 以 对 网 站 造成 严重 损害 或 者 直接 把 网 站 拖 震 。 除 非 出 现 
了 紧急 医疗 事故 ， 而 唯一 的 援救 方法 是 在 两 秒 内 收集 《 阿 周 真人 秀 》 (Joe Schmo) 网 
站 上 所 有 的 搞笑 视频 ， 否 则 真 的 没有 理由 去 损害 别人 的 网 站 。 
一 直 被 盯 着 看 的 机 器 人 是 永远 不 会 完成 任务 的 ( 抓 取 总 是 需要 很 长 时 间 )。 有 时 候 最 好 
让 有 假 虫 在 午夜 运行 ， 而 不 是 在 下 午 或 者 傍晚 运行 ， 原 因 如 下 。 

如 果 你 有 大 约 8 个 小 时 的 时 间 ， 即 使 抓 取 一 页 需要 2 秒 ， 你 也 可 以 抓 取 14 000 

多 个 页 面 。 当 时 间 不 怎么 紧张 的 时 候 ， 没 必要 加 快 疏 虫 的 抓 取 速度 。 
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。 假如 网 站 的 目标 访客 和 你 在 同一 时 区 (如 果 不 在 同一 时 区 ， 可 以 相应 地 调整 时 
间 )， 那 么 夜间 网 站 流量 可 能 会 少 很 多 ， 这 就 意味 着 你 的 抓 取 行为 不 会 影响 网 
站 高 峰 期 的 运行 了 。 

。 你 可 以 在 爬虫 抓 取 网 站 的 时 候 睡觉 ， 不 必 为 了 看 到 新 信息 而 不 断 地 翻 日 志 。 想 
想 看 ， 第 二 天 早上 了 睡 醒 的 时 候 才 新 的 数据 就 摆 在 面前 ， 得 有 多 么 民 意 啊 | 


再 想象 一 下 下 面 3 种 场景 : 

。 你 有 一 个 网 络 爬 虫 遍 历 了 《 阿 周 真人 和 郁 》 网 站 ， 收 集 了 一 些 或 全 部 的 数据 ; 

。 你 有 一 个 网 络 疏 虫 遍 历 了 几 百 个 小 网 站 ， 收 集 了 一 些 或 全 部 的 数据 ; 

。 你 有 一 个 网 络 疏 虫 遍 历 了 一 个 超大 型 网 站 ， 比 如 维基 百科 。 
在 第 一 个 场景 中 ， 最 好 让 卜 虫 在 深夜 慢 慢 地 运行 。 
在 第 二 个 场景 中 ， 最 好 以 循环 的 方式 快速 地 抓 取 每 个 网 站 ， 而 不 是 一 次 一 个 慢 慢 地 抓 
取 。 根 据 你 要 抓 取 的 网 站 数量 进行 合理 安排 ， 你 就 可 以 以 最 快 的 快速 (取决 于 网 络 连 
接 和 机 器 ) 收集 数据 ， 而 且 对 每 个 远程 服务 器 造成 的 负载 也 比较 合理 。 为 实现 这 种 
循环 抓 取 方 式 ， 你 可 以 采用 多 线程 (每 个 线程 抓 取 一 个 网 站 ， 可 以 暂停 ) ， 也 可 以 用 
Python 列表 来 跟踪 网 站 。 
在 第 三 个 场景 中 ， 可 能 你 的 网 络 连接 和 个 人 电脑 对 维基 百科 这 样 的 超大 型 网 站 造成 的 
负载 不 会 引起 对 方 的 注意 。 但 是 ， 如 果 你 用 分 布 式 网 络 设备 抓 取 ， 显 然 就 不 是 一 回 事 
儿 了 。 请 谨慎 使 用 分 布 式 网 络 设备 ， 最 好 问 问 对 方 允 不 允许 这 么 做 。 








18.3 计算 机 欺诈 与 滥用 法 

在 20 世纪 80 年 代 早期 计算 机 开始 从 学 术 领 域 走向 商业 世界 。 病 毒 和 蠕虫 不 再 仅仅 被 认 
为 是 麻烦 事 (或 者 一 种 业余 爱好 )， 而 是 可 能 导致 实际 财务 损失 的 严重 犯罪 事件 。 为 此 ， 
美国 联邦 政府 在 1986 年 出 台 了 《计算 机 欺诈 与 滥用 法 》。 

尽管 你 可 能 会 认为 《计算 机 其 诈 与 滥用 法 》 只 是 针对 那些 发 布 病毒 的 恶意 黑客 ， 但 其 实 它 
对 网 络 仆 虫 也 有 很 大 的 影响 。 想 象 一 下 ， 一 个 仆 虫 在 网 上 寻找 采用 简单 易 猜 密码 的 登录 表 
单 ， 对 网 站 进行 暴力 破解 ， 或 者 收集 不 小 心 置 于 隐 和 项 但 公开 位 置 的 政府 机 窗 。 根 据 《 计 算 
机 其 诈 与 滥用 法 》， 这 些 行为 都 是 非法 的 。 





























《计算 机 欺诈 与 滥用 法 》 定 义 了 7 种 主要 犯罪 行为 ， 总 结 如 下 。 


。 明知 没有 授权 ， 却 侵入 美国 政府 的 计算 机 ， 并 获取 信息 。 

。 明知 没有 授权 ， 却 侵入 计算 机 ， 并 获取 财务 信息 。 

。 明知 没有 授权 ， 却 侵入 美国 政府 的 计算 机 ， 影 响 政府 计算 机 的 使 用 。 
。 为 了 诈骗 的 目的 故意 侵入 任何 受 保护 的 计算 机 。 
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。 在 未 经 授权 的 情况 下 ， 故 意 侵 入 一 台 计算 机 并 导致 计算 机 损坏 。 

。 分 享 或 买卖 美国 政府 使 用 的 计算 机 或 者 影响 州 际 或 国际 商务 往来 的 计算 机 的 密码 或 授权 
信息 。 

。 试图 通过 破坏 或 威胁 破坏 任何 受 保护 的 计算 机 ， 裔 诈 钱财 或 “任何 有 价值 的 东西 ”。 


总 之 ， 远 离 那些 受 保护 的 计算 机 ， 不 要 接 入 没有 授权 的 计算 机 (包括 Web 服务 器 ) ， 尤 其 
要 避 开 政府 或 财务 计算 机 。 


18.4 ”robots.txt 和 服务 协议 


从 法 理 上 说 ， 网 站 的 服务 协议 和 robots.txt 是 很 有 趣 的 。 如 果 一 个 网 站 允许 公众 接 入 ， 那 么 
网 站 管理 员 对 哪些 软件 可 以 接 入 而 哪些 软件 不 可 以 接 入 的 限制 是 不 合理 的 。 如 果 网 站 管理 
员 对 你 说 ,“ 你 用 浏览 器 访问 网 站 没 问 题 ， 但 是 你 用 自己 写 的 程序 访问 它 就 不 行 ”， 这 就 不 
太 靠 谱 了 。 

大 多 数 网 站 在 每 页 的 页 脚 都 有 自己 的 服务 协议 链接 。 服 务 协 议 不 仅 包含 网 络 仆 虫 和 自动 接 
入 的 规则 ， 而 且 还 包括 网 站 收集 的 信息 类 型 和 信息 用 途 ， 通 常 还 有 一 条 免责 声明 ， 表 明 对 
网 站 提供 的 服务 不 做 任何 明示 或 默 示 保证 。 





















































如 果 你 对 搜索 引擎 优化 〈search engine optimization，SEO) 或 搜索 引擎 技术 感 兴 趣 ， 那 么 
你 可 能 昕 说 过 robots.txt 文件 。 如 果 你 想 在 任何 大 型 网 站 上 查找 robots.txt 文件 ， 可 以 在 网 
站 根 目录 http://website.com/robots.txt 找到 。 





robots.txt 文件 的 语法 是 在 1994 年 出 现 的 ， 那 时 搜索 引擎 技术 刚刚 兴起 。 当 时 ， 从 整个 互 
联网 寻找 资源 的 搜索 引擎， 比如 AltaVista 和 DogPile， 开 始 和 那些 按照 主题 对 网 站 进行 分 
类 的 门户 网 站 激烈 竞争 ， 比 如 Yahoo!。 互 联网 搜索 规模 的 增长 不 仅 意味 着 网 络 怜 虫 数量 肖 
增长 ， 而 且 也 意味 着 网 络 怜 虫 收集 的 信息 对 普通 人 而 言 的 可 供 性 大 大 增强 了 。 


虽然 我 们 今天 认为 这 种 可 用 性 是 稀 松 平常 的 ， 但 在 当时 ， 当 网 站 文件 结构 深 处 隐藏 的 信息 
出 现在 主要 搜索 引擎 的 搜索 结果 首页 中 时 ， 有 些 网 站 管理 员 感 到 非常 震惊 。 于 是 ，robots. 
txt 文件 的 语法 ， 也 称 为 机 器 人 排除 标准 (Robots Exclusion Standard) ， 应 运 而 生 。 















































与 通常 用 人 类 语言 宽泛 地 讨论 网 络 扑 虫 的 服务 协议 不 同 ，robots.txt 文件 可 以 被 自动 化 程序 
轻易 地 解析 和 使 用 。 虽 然 它 似 乎 可 以 一 劳 永 逸 地 解决 仆 虫 问题 ， 但 是 请 注意 下 面 两 点 。 


。 robots.txt 文件 的 语法 没有 标准 格式 。 它 是 一 种 常用 并 被 良好 遵循 的 规范 ， 但 是 并 未 阻止 
任何 人 创建 自己 的 robots.txt 文 件 ( 且 不 说 除非 它 变 成 主流 标准 ， 否 则 网 络 机 器 人 就 不 
会 承认 或 遵循 它 )。 尽 管 如 此 ， 它 仍 是 一 种 被 企业 广泛 认可 的 规范 ， 主 要 是 因为 它 非常 
简单 ， 而 且 企 业 也 没什么 动力 去 开发 自己 的 版 本 或 者 尝试 去 改进 它 。 
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。 robots.txt 文件 并 不 是 一 个 强制 性 约束 。 它 只 是 说 “请 不 要 抓 网 站 的 这 些 内 容 *。 很 多 网 
络 假 虫 库 都 支持 robots.txt 文件 (虽然 这 通常 是 个 很 容易 修改 的 默认 设置 )。 另 外 ， 按 照 
robots.txt 文件 抓 取信 息 比 直接 抓 取 要 麻烦 得 多 (毕竟 ,你 需要 抓 取 、 分 析 并 在 代码 逻辑 
中 处 理 页 面 内 容 )。 


机 器 人 排除 标准 的 语法 很 简单 。 和 Python 等 语言 一 样 ， 注 释 都 是 用 # 号 开头 ， 用 换行 符 结 
尾 ， 可 以 用 在 文件 的 任意 位 置 。 























文件 的 第 一 行 非 注释 内 容 是 User-agent:， 注 明 具 体 哪些 机 器 人 需要 遵守 规则 。 后 面 是 一 
组 规则 ， 要 么 是 ALLow: 要 么 是 Disallow: ， 决 定 了 是 否 允 许 机 器 人 访问 网 站 的 该 部 分 内 容 。 
星 号 (*) 是 通配符 ， 可 以 用 于 User-agent:, 也 可 以 用 于 URL 链接 中 。 





如 果 一 条 规则 后 面 跟着 一 个 与 之 矛盾 的 规则 ， 则 按 后 一 条 规则 执行 。 例 如 : 


#Welcome to my robots .txt file! 
User-agent: * 
Disallow: * 


User-agent: Googlebot 
Allow: * 
Disallow: /private 








在 这 个 例子 中 ， 所 有 的 机 器 人 都 被 禁止 访问 网 站 的 任何 内 容 ， 除 了 Google 的 网 络 机 器 人 ， 
它 可 以 访问 网 站 上 除 /private 位 置 之 外 的 所 有 内 容 。 





Twitter 的 robots.txt 文件 对 Google、Yahoo!、Yandex (俄罗斯 著名 搜索 引擎 ) 、 微 软 ， 以 及 
其 他 机 器 人 或 搜索 引擎 的 访问 范围 都 有 明确 的 说 明 。Google 搜索 (和 其 他 机 器 人 的 访问 范 
围 一 样 ) 的 内 容 如 下 所 示 : 









































#Goo0gle Search Engine Robot 
User-agent: Googlebot 
Allow: /?_escaped_ fragment_ 


Allow: /?Lang= 

Allow: /hashtag/*?src= 
Allow: /search?q=%23 
Disallow: /search/realtime 
Disallow: /search/users 
Disallow: /search/*/grid 


Disallow: /*? 
Disallow: /*/followers 
Disallow: /*/following 


注意 ，Twitter 限制 访问 其 网 站 中 有 API 的 部 分 。 因 为 Twitter 有 一 个 管理 良好 的 API (并 
且 可 以 通过 授权 赚 到 钱 )， 所 以 禁止 任何 “自制 API” 通 过 独立 抓 取 其 网 站 来 收集 信息 对 
Twitter 最 为 有 利 。 
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虽然 看 到 一 个 指明 扑 虫 抓 取 范 围 的 文件 让 人 感觉 很 北 届 ， 但 是 它 其 实 可 以 成 为 网 络 爬 虫 开 
发 的 指示 灯 。 如 果 你 发 现 一 个 robots.txt 文件 禁止 抓 取 网 站 上 某 个 部 分 的 内 容 ， 那 么 基本 可 
以 确定 网 管 同意 你 抓 取 其 他 部 分 的 所 有 内 容 (如 果 他 们 不 愿意 让 你 抓 取 ， 就 会 在 robots.txt 
文件 中 明令 禁止 了 )。 











Ce 






































例如 ， 维 基 百 科 的 robots.txt 文件 中 适用 于 一 般 网 络 仆 虫 并非 搜索 引擎 ) 的 部 分 非常 宽 
容 。 它 甚至 用 人 类 可 以 阅读 的 文字 来 欢迎 机 器 人 抓 取 (适合 我 们 的 仆 虫 ! ) ， 并 且 只 人 禁 
访问 一 小 部 分 页 面 ， 比 如 登录 页 面 、 搜 索 页 面 和 “随机 词 条 ”页 务 








四 














o 


# 

# Friendly, low-speed bots are welcome viewing article pages, but not 

# dynamically generated pages please. 

# 

# Inktomi's "Slurp" can read a minimum delay between hits; if your bot supports 
# such a thing using the 'Crawl-delay' or another instruction, please let us 

# know. 

# 

# There is a special exception for API mobileview to allow dynamic mobile web & 
# app views to load section content. 

# These views aren't HTTP-cached but use parser cache aggressively and don't 

# expose special: pages etc. 

# 


User-agent: * 

Allow: /w/api.php?action=mobileview& 
Disallow: /w/ 

Disallow: /trap/ 

Disallow: /wiki/Especial:Search 
Disallow: /wiki/Especial%3ASearch 
Disallow: /wiki/Special:Collection 
Disallow: /wiki/Spezial:Sammlung 
Disallow: /wiki/Special:Random 
Disallow: /wiki/Special%3ARandom 
Disallow: /wiki/Special:Search 
Disallow: /wiki/Special%3ASearch 
Disallow: /wiki/Spesial:Search 
Disallow: /wiki/Spesial%3ASearch 
Disallow: /wiki/Spezial:Search 
Disallow: /wiki/Spezial%3ASearch 
Disallow: /wiki/Specjalna:Search 
Disallow: /wiki/Specjalna%3ASearch 
Disallow: /wiki/Speciaal:Search 
Disallow: /wiki/Speciaal%3ASearch 
Disallow: /wiki/Speciaal:Random 
Disallow: /wiki/Speciaal%3ARandom 
Disallow: /wiki/Speciel:Search 
Disallow: /wiki/Speciel%3ASearch 
Disallow: /wiki/Speciale:Search 
Disallow: /wiki/Speciale%3ASearch 
Disallow: /wiki/Istimewa:Search 
Disallow: /wiki/Istimewa%3ASearch 
Disallow: /wiki/Toiminnot:Search 
Disallow: /wiki/Toiminnot%3ASearch 





3 
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是 否 遵照 robots.txt 文件 的 要 求 写 网 络 爬 虫 由 你 自己 决定 ， 但 是 我 强烈 建议 你 遵守 ， 尤 其 是 
你 的 惟 虫 不 加 选择 地 抓 取 网 页 的 时 候 。 

18.5 ”3 个 网 络 爬 虫 

因为 网 页 抓 取 是 一 个 无 界限 的 领域 ， 所 以 你 很 容易 陷入 官司 之 中 。 这 一 市 将 介绍 3 个 案 








例 ， 其 中 均 涉 及 某 种 适用 于 网 络 慌 虫 的 法 律 。 


18.5.1 eBay 起 诉 Bidders Edge 侵 害 其 动产 


1997 年 ， 豆 宝宝 (Beanie Baby) 市 场 依旧 如 火 如 茶 ， 科 技 领域 的 泡沫 不 断 膨胀 ， 在 线 房 屋 
拍卖 已 成 为 互联 网 上 的 新 热点 。 有 一 家 叫 Bidder’s Edge 的 公司 创造 了 一 种 新 的 拍卖 网 站 。 
客户 不 需要 到 各 个 拍卖 网 站 上 查看 并 对 比 商 品 价格 ， 这 个 公司 可 以 汇总 所 有 网 站 上 关于 同 
一 商品 (比如 一 个 流行 的 Furby 娃娃 或 电影 《辣妹 世界 》 的 光盘 ) 的 信息 ， 然 后 客户 就 可 
以 很 方便 地 点 击 最 低 价 的 网 站 去 购买 了 。 


Bidders Edge 通过 很 多 网 络 仆 虫 实现 了 这 一 点 。 为 了 获得 商品 价格 和 信息 ， 它 们 不 断 地 向 
各 个 拍卖 网 站 的 Web 服务 器 发 起 请 求 。 在 当时 的 拍卖 网 站 中 ， 最 大 的 是 eBay，Bidder’s 
Edge 每 天 要 向 eBay 服务 器 请 求 大 约 100 000 次 。 就 算 按 照 今天 的 标准 ， 这 也 是 很 大 的 流量 。 
eBay 公布 的 数据 显示 ， 这 相当 于 其 网 站 一 天 总 流量 的 1.53%， 该 公司 自然 对 此 感到 不 满 。 





























eBay 给 Bidder's Edge 发 了 一 封 勒 令 停止 通知 函 ， 以 及 一 张 eBay 数据 授权 申请 表 。 但 是 ， 
授权 谈判 没 成 功 ，Bidders Edge 仍然 一 意 孤 行 ， 继 续 抓 取 eBay 的 数据 。 


虽然 eBay 封杀 了 Bidders Edge 的 169 个 IP 地 址 ， 但 是 Bidders Edge 可 以 通过 代理 服务 
器 继续 抓 取 (发送 请 求 的 时 候 显 示 代 理 服务 器 的 IP)。“ 暗 战 ”就 这 样 开始 了 。 在 旧 全 被 
封杀 之 后 ，Bidders Edge 不 断 启 用 新 的 代理 服务 器 并 购买 新 的 卫 地 址 ，eBay 则 被 迫 不 断 
更 新 防火 墙 列表 (并 对 每 个 可 疑 IP 地 址 发 送 的 数据 包 进行 检查 )。 
































最 终 ， 在 1999 年 12 月 ，eBay 起 诉 Bidder's Edge 侵害 其 动产 。 





因为 eBay 的 服务 器 是 其 拥有 的 真实 有 形 的 资源 ， 它 不 想 让 Bidders Edge 滥用 自己 的 资源 ， 
所 以 起 诉 对 方 侵害 动产 好 像 非常 合理 。 实 际 上 ， 在 当代 ， 侵 害 动产 在 网 络 爬 虫 法 律 案件 中 
十 分 普遍 ， 也 经 常 被 视 为 IT 法 律 。 

法 院 认 为 ，eBay 需 出 示 两 方面 证 据 才 可 以 证 明 自己 的 动产 被 侵害 了 : 


。 Bidder’s Edge 未 经 许可 便 使 用 了 eBay 资源 
。 eBay 确实 因为 Bidders Edge 的 行为 遭受 了 经 济 损失 
































由 于 之 前 eBay 发 过 勒令 停止 通知 函 ， 而 且 开 日 志 可 以 显示 服务 器 的 使 用 情况 以 及 相关 成 
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本 ， 所 以 eBay 很 容易 就 提供 了 证 据 。 当 然 ， 大 型 法 律 案件 都 不 会 轻松 结束 : 对 方 提 起 了 
反诉 ， 双 方 聘 请 了 多 位 律师 ， 最 终 在 2001 年 3 月 于 庭 外 和 解 ， 赔 偿 金 额 不 详 。 


那么 ， 这 是 不 是 说 ， 以 后 只 要 任何 人 未 经 授权 使 用 他 人 的 服务 器 ， 就 是 侵害 动产 了 呢 ? 也 
不 一 定 。Bidder's Edge 是 一 个 极端 案例 : 它 使 用 了 eBay 太 多 的 资产， 导致 eBay 不 得 不 
购买 更 多 的 服务 器 ， 花 更 多 电费 ， 可 能 还 要 雇用 更 多 的 人 进行 维护 (虽然 1.53% 看 似 并 不 
多 ， 但 对 这 样 的 大 公司 来 说 所 有 加 总 肯定 是 一 笔 大 数目 ) 。 














2003 年 ， 加 州 最 高 法 院 宣 判 了 另 一 个 案子 ，Intel 公司 起 诉 Hamidi 失败 。Intel 前 雇员 
Hamidi 通过 Intel 服务 器 向 Intel 的 员工 发 送 让 Intel 公司 不 爽 的 邮件 。 法 院 结案 时 说 : 


Intel 败诉 并 不 是 因为 通过 网 络 发 送 邮 件 不 必 承 担任 何 法 律 责任 ， 而 且 因为 在 加 
州 ， 如 果 原 告 不 能 证 明 自 己 的 财产 或 法 律 权 益 受 到 了 损害 ， 那 么 侵害 动产 的 民事 
侵权 行为 (不 同 于 起 诉 理由 ) 就 不 成 立 。 
最 后 ，Intel 无 法 向 法 院 证 明 Hamidi 向 公司 其 他 员工 发 送 的 6 封 邮件 给 员工 造成 了 经 济 损 
失 (有 趣 的 是 ， 每 个 员工 都 有 一 个 “从 Hamidi 邮件 列表 中 删除 ”选项 一 一 说 明 他 还 是 挺 
懂 规 矩 的 ) 。 这 件 事 并 没有 给 Intel 造成 任何 财产 损失 。 




















18.5.2 ”美国 政府 起 诉 Auernheimer 与 《计算 机 欺诈 与 滥用 法 》 
如 果 网 上 的 信息 可 以 让 人 用 浏览 器 轻而易举 地 获得 ， 那 么 你 用 自动 化 手段 获取 同样 的 信息 
就 不 太 可 能 会 引起 联邦 调查 局 调查 你 。 但 是 ， 如 果 一 个 非常 细心 的 人 在 网 站 上 发 现 了 一 个 
极 小 的 安全 漏洞 ， 再 使 用 网 络 疏 虫 自动 化 抓 取 网 站 ， 那 么 这 个 极 小 的 安全 漏洞 就 会 变 得 越 
来 越 大 并 且 非 常 危险 ， 被 联邦 调查 局 调查 就 很 正常 了 。 





2010 年 ，Andrew Auernheimer 和 Daniel Spitler 在 iPad 上 发 现 了 一 个 新 功能 。 当 你 用 iPad 
访问 AT&T 网 站 的 时 候 ，AT&T 会 跳 转 到 一 个 包含 你 的 让 ad 唯一 ID 号 的 链接 : 





https://dcp2.att.com/OEPClient/openpage?ICCID=<idNumber>&IMEI= 

















这 个 页 面包 括 一 个 登录 表单 ， 上 面 显 示 了 对 应 ID 号 的 用 户 的 邮箱 地 址 ， 用 户 只 要 输入 密 
码 就 可 以 登录 他 们 的 账号 了 。 











虽然 有 大 量 可 能 的 ID 号 ,但 只 要 有 足够 多 的 仆 虫 ， 用 一 串 随 机 数 迭 代 ， 就 可 以 收集 邮箱 地 
址 。 通 过 提供 这 个 方便 的 登录 功能 ，AT&T 基本 上 就 把 用 户 的 邮箱 地 址 公布 到 网 络 上 了 。 








Auernheimer 和 Spitler 创建 了 一 个 爬虫 ， 一 共 收 集 了 114 000 个 邮箱 地 址 ， 里 面包 含 知名 人 
士 、 企 业 CEO 和 政府 官员 的 私人 邮箱 地 址 。Auernheimer 将 该 邮箱 地 址 列表 以 及 获取 列表 
的 方法 发 送 给 了 高 客 传媒 (Gawker Media) ， 高 客 传媒 也 很 给 力 ， 在 自己 的 网 站 发 布 了 头条 
消息 “苹果 最 严重 的 安全 漏洞 : 114 000 个 iPad 用 户 信息 被 曝 ” (不 过 没有 公布 邮箱 列表 )。 
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2011 年 6 月 ，Auernheimer 的 家 突然 遭 到 FBI 搜查 ，FBI 索要 邮箱 地 址 ， 不 过 最 终 以 贩毒 
罪 还 捕 了 他 。2012 年 11 月 ， 他 因 未 经 授权 侵入 计算 机 被 判 其 诈 与 共 谋 罪 ， 被 判 和 人 狱 41 个 
月 ， 并 被 判处 罚金 73 000 美元 。 








他 的 案子 引起 了 民事 律师 Orin Kerr 的 关注 ，Kerr 加 入 了 他 的 律师 团队 ， 将 案件 上 诉 至 美 
国联 邦 第 三 巡回 上 诉 法 院 。2014 年 4 月 11 日 (这 类 法 律 程序 耗 时 都 比较 长 ) ， 第 三 巡回 上 
诉 法 院 接受 上 诉 ， 法 院 的 意见 是 : 











Auernheimer 在 第 一 法 院 的 定罪 必须 撤销 ， 因 为 根据 《计算 机 坎 诈 与 滥用 法 光 
18 U.S.C. $ 1030(a)(2)(C)， 访 问 公开 可 访问 的 网 站 并 非 未 经 授权 的 访问 。AT&T 
并 没有 使 用 密码 或 任何 其 他 保护 措施 来 限制 对 其 用 户 的 邮箱 地 址 的 访问 。AT&T 
主观 上 和 希望 外 人 不 会 偶然 看 到 敏感 数据 ， 以 及 Auernheimer 将 访问 夸张 地 描述 为 
“偷窃 "， 这 都 不 重要 。AT&T 的 服务 器 配置 使 得 信息 向 所 有 人 公开 ， 就 是 授权 公 
众 查看 信息 。 根 据 《 计 算 机 欺诈 与 滥用 法 》， 通 过 AT&T 的 公共 网 站 获取 邮箱 地 
址 是 获得 授权 的 行为 ， 因 此 Auernheimer 无 罪 。 


于 是 ,理智 在 法 律 体系 中 又 一 次 获得 了 最 终 胜 利 。 同 一 天 ，Auernheimer 被 从 监狱 中 释放 ， 
从 此 每 个 人 都 可 以 快乐 地 生活 了 。 








虽然 Auernheimer 被 认定 为 没有 违反 《计算 机 欺诈 与 滥用 法 》， 但 是 他 的 家 被 FBI 强行 搜查 
了 ， 他 还 花费 了 数 千 美元 的 律师 费 ， 还 花 了 三 年 时 间 诉讼 ， 还 坐 了 牢 。 作 为 网 络 爬 虫 从 业 
者 ， 我 们 能 从 中 吸取 什么 教训 ， 避 免 类 似 情 况 发 生 在 自己 身上 呢 ? 








抓 取 任何 敏感 信息 的 时 候 ， 无 论 是 个 人 隐私 〈 本 案例 中 是 邮箱 地 址 )、 商 业 秘密 还 是 政府 
机 密 ， 在 向 律师 咨询 之 前 ， 都 不 应 该 行动 。 即 使 信息 是 公开 的 ， 你 也 要 想 想 :“ 如 果 普 通 
用 户 想 看 这 些 信息 ， 可 以 轻松 获取 到 吗 ? ““ 这 些 信息 是 公司 想 让 用 户 看 的 吗 ? ” 


我 曾经 多 次 给 一 些 公司 打 电话 ， 告 诉 他 们 网 站 和 Web 应 用 存在 的 安全 隐患 。 这 么 说 最 合 
适 :“ 你 好 ， 我 是 一 名 网 络 专家 ， 我 在 你 们 的 网 站 上 发 现 了 一 个 潜在 的 安全 隐患 ， 可 以 把 
电话 转 接 到 可 以 处 理 问 题 的 人 那里 吗 ? ”对 方 除了 立刻 认可 你 的 〈 白 帽 ) 妓 客 精神 ， 还 可 
能 会 让 你 免费 订阅 网 站 内 容 ， 甚 至 还 会 有 现金 奖励 或 其 他 好 处 ! 














另外 ，Auernheimer (在 通知 AT&T 之 前 ) 向 高 客 传媒 发 布 信息 ， 以 及 炫耀 自己 利用 了 安全 
漏洞 ， 使 得 他 成 为 了 AT&T 律师 的 一 个 特别 有 吸引 力 的 目标 。 


如 果 你 发 现 了 网 站 的 安全 隐患 ， 最 好 的 做 法 就 是 告诉 网 站 的 所 有 者 ， 而 不 是 媒体 。 尤 其 是 
当 网 站 没有 及 时 发 布 补丁 的 时 候 ， 你 可 能 很 想 写 一 篇 博文 以 向 世界 公布 。 但 是 ， 你 应 该 记 
住 ， 那 是 网 站 公司 该 做 的 事情 ， 与 你 无 关 。 你 最 该 做 的 就 是 让 你 的 网 络 仆 虫 (还 有 你 的 业 


务 ) 远离 这 些 网 站 | 
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18.5.3 “Field 起 诉 Google: 版 权 和 robots.txt 


Blake Field 是 一 名 律师 ， 他 起 诉 Google 违反 了 版 权 法 ， 因 为 当 他 把 自己 的 书 从 他 的 网 站 上 
删除 之 后 ，Google 还 是 在 搜索 引擎 里 显示 了 书 的 副本 。 版 权 法 允许 具有 原创 性 作品 的 作者 
控制 作品 的 发 布 渠道 。Field 认为 Google 的 缓存 〈 当 他 把 自己 的 书 从 他 的 网 站 上 删除 之 后 ) 
侵犯 了 他 控制 作品 发 布 渠道 的 权利 。 














Google 网 络 缓存 
Google 网 络 爬 虫 〈 也 叫 谷歌 机 器 人 ) 抓 取 网 站 的 时 候 ， 它 们 会 为 网 站 制作 一 
个 副本 ， 然 后 放 在 互联 网 上 。 任 何人 都 可 以 用 URL 链接 接 入 这 些 缓存 : 


http://webcache.googleusercontent.com/search?q=cache:http: 
//pythonscraping.com/ 


如 果 你 搜索 或 抓 取 的 网 站 没有 了 ， 你 可 以 用 这 个 方法 看 看 是 否 有 可 用 的 副本 。 








知道 Google 的 缓存 功能 却 没 有 采取 安全 措施 ， 这 对 Field 不 利 。 毕 竟 ， 他 可 以 通过 在 网 站 
上 增加 robots.txt 文件 来 禁止 Google 机 器 人 缓存 他 的 网 站 ， 并 在 里 面 注 明 哪些 页 面 可 以 抓 
取 ， 哪 些 页 面 不 能 抓 取 。 


更 重要 的 是 ， 法 院 认 为 ， 根 据 DMCA 的 安全 港 条 款 ，Google 可 以 合法 地 缓存 和 显示 Field 


的 网 站 :“ 服 务 提 供 商 作为 中 间 媒 介 或 临时 把 材料 存储 在 由 其 控制 或 操作 的 系统 或 网 络 上 ， 
不 应 当做 出 经 济 赔 偿 ……' 不 应 当 承受 侵犯 版 权 的 责任 。 


18.6 ”勇往直前 

Web 一 直 在 不 断 地 变化 。 那 些 给 我 们 带 来 了 图 像 、 视 频 、 文 字 和 其 他 数据 文件 的 计算 机 技 
术 也 在 不 断 地 升级 和 改进 。 如 果 想 紧 跟 技术 宰 流 ， 抓 取 互 联网 数据 的 技术 也 需要 随机 应 变 。 
谁 知 道 呢 ? 本 书 未 来 的 版 本 可 能 会 完全 忽略 JavaScript， 届 时 它 已 是 一 种 过 时 的 、 极 少 使 
用 的 技术 了 ， 而 重点 关注 HIMLS8 的 全 息 投影 解析 。 但 是 ， 抓 取 网 站 内 容 的 基本 思路 和 一 
般 方法 是 不 会 改变 的 。 





无 论 现在 还 是 将 来 ， 遇 到 一 个 网 页 抓 取 项 目 时 ， 你 都 应 该 问 问 自 己 以 下 几 个 问题 。 





我 需要 回答 或 要 解决 的 问题 是 什么 ? 

什么 数据 可 以 帮 有 到 我 ?它们 都 在 哪里 ? 

网 站 是 如 何 展示 数据 的 ? 我 能 准确 地 识别 网 站 代码 中 包含 这 一 信息 的 部 分 吗 ? 
如 何 定 位 这 些 数据 并 获取 它们 ? 

为 了 让 数据 更 实用 ， 应 该 做 怎样 的 处 理 和 分 析 ? 

怎样 才能 让 抓 取 过 程 更 好 ， 更 快 ， 更 稳定 ? 
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此 外 ， 你 不 仅 需 要 和 擎 握 如 何 使 用 本 书 中 介绍 的 工具 ， 还 要 知道 如 何 把 它们 有 效 地 组 合 起 来 
以 解决 更 大 的 问题 。 有 了 时， 数据 很 容易 获取 ， 格 式 也 很 规范 ， 用 一 个 简单 的 爬虫 就 搞定 
了 。 有 了 时， 你 可 能 需要 仔细 地 思考 一 番 才 能 抓 取 到 数据 。 


例如 ， 在 第 11 章 ， 我 首先 用 Selenium 获取 在 亚马逊 图 书 预览 页 面 中 通过 Ajax 加 载 的 图 
片 ， 然 后 再 用 Tesseract 读 取 图 片 ， 识 别 里 面 的 文字 。 在 “维基 百科 六 度 分 隔 ” 问 题 中 ， 我 
先 用 正则 表达 式 实现 一 个 疏 虫 ， 把 维基 百科 词 条 链接 信息 存储 到 数据 库 中 ， 然 后 用 有 向 图 
算法 寻找 词 条 “ 凯 文 . 贝 骨 ”与 词 条 “ 埃 里 克 ' 艾 德 尔 ” 之 间 的 最 短 链接 路 径 。 


在 使 用 自动 化 技术 抓 取 互 联网 数据 时 ， 其 实 很 少 遇 到 完全 无 法 解决 的 问题 。 记 住 一 点 就 
行 : 互联 网 其 实 就 是 一 个 用 户 界 面 不 太 友好 的 超级 API。 
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关于 作者 

瑞安 米 切 尔 (Ryan Mitchell) 是 美国 波士顿 HedgeServ 公司 的 一 名 高 级 软件 工程 是， 负 
责 开发 公司 的 API 和 数据 分 析 工 具 。 她 本 科 毕 业 于 美国 欧 林 工程 学 院 ， 之 后 在 哈佛 大 学 继 
续 教 育 学 院 获 得 了 软件 工程 硕士 学 位 和 数据 科学 证 书 。 在 加 入 HedgeServ 公司 之 前 ， 她 曾 
在 Abine 公司 构建 网 络 想 虫 和 网 络 机 器 人 。 她 还 经 常 为 零售 、 人 金融 和 医药 行业 的 网 页 抓 取 
项 目 提供 咨询 服务 ， 并 在 美国 东北 大 学 和 美国 欧 林 工程 学 院 担任 课程 顾问 和 兼职 教员 。 





关于 封面 

本 书 封面 上 的 动物 是 一 只 南非 穿山 甲 。 穿 山 甲 是 一 种 独居 、 喜 欢 夜 间 活 动 的 哺乳 动物 ， 与 
儿 猴 、 树 届 、 食 蚊 兽 是 近亲 。 它 们 主要 分 布 于 非洲 的 东部 和 南部 。 非 洲 还 有 3 种 穿山 四 
均 属 濒临 灭绝 物种 。 





南非 穿山 甲 一 般 体 长 30~152 厘米 ， 体 重 1.5~33 千克 。 它 们 和 狐 钦 类 似 ， 身 上 有 深 棕色 、 
浅 棕色 或 橄榄 色 的 鲜 甲 。 幼 年 穿山 甲 的 鳞 甲 主要 呈 粉 红色 。 受 到 威胁 时 ， 其 尾部 的 鳞 甲 更 
像 攻 击 性 武器 ， 可 以 砍 伤 攻 击 者 。 穿 山 甲 还 有 一 种 与 自 船 类 似 的 防御 策略 ， 可 以 从 肛门 附 
近 的 腺 体 中 释放 出 一 种 酸性 恶臭 气体 。 这 么 做 不 仅 是 向 潜在 的 攻击 者 发 出 警告 ， 还 可 以 标 
记 自 己 的 热力 范围 。 穿 山 甲 的 肚子 上 并 没有 鳞 甲 ， 不 过 有 一 点 儿 毛 。 





和 它们 的 近亲 食 蚁 兽 一 样 ， 穿 山 甲 主 要 以 蚂蚁 和 和 白蚁 为 食 。 它 们 异乎 寻常 的 长 乔 头 可 以 在 
树 洞 和 蚂蚁 窝 中 寻 疯 食物 。 它 们 的 午 头 比 身体 还 长 ， 不 用 的 时 候 可 以 缩 回 胸腔 里 。 

虽然 穿山 甲 是 独居 动物 ， 但 是 长 大 以 后 会 居住 在 很 深 的 地 洞 里 。 但 是 它们 经 常 “霸占 ” 土 
豚 和 帝 猪 弃 用 的 集 穴 。 不 过 通过 前 肢 上 3 个 又 长 又 弯 的 和 爪子， 穿山 甲 在 需要 的 时 候 为 自己 
挖 一 个 地 洞 也 不 成 问题 。 


O’"Reilly 图 书 封面 上 的 许多 动物 部 濒临 灭绝 ， 它 们 对 这 个 世界 非常 重要 。 如 果 你 想 了 解 如 
何 能 够 帮助 它们 ， 请 参考 animals.oreilly.com。 





封面 图 片 取 自 Lydekker 的 The Royal Natural History。 
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Python 深度 学 习 


令 Keras 之 父 、Google 人 工 智 能 研究 员 Francois Chollet 执 笔 ， 深 
度 学 习 领 域 力作 

令 通俗 易 懂 ， 帮 助 读者 建立 关于 机 器 学 习 和 深度 学 习 核心 思想 的 直觉 

令 16 开 全 彩印 刷 


作者 : 弗 朗 素 瓦 ' 肖 莱 
译 者 : 张 亮 


Python 机 器 学 习 基 础 教程 

















以 机 器 学 习 算 法 实践 为 重点 ， 使 用 scikit-learn 库 从 头 构建 机 器 学 习 应 用 


作者 : Andreas C. Muller Sarah Guido 
译 者 : 张 亮 (hysic ) 
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{ 抽 ] 玉 格 尔 - 格 林内 格 著 
安道 译 
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Python 数据 分 析 基 础 
零 编程 经 验 也 可 学 会 用 最 火 的 Python 语 言 进行 数据 分 析 


作者 : Clinton W. Brownley 
译 者 : 陈 光 欣 


Flask Web 开发 : 基于 Python 的 Web 应 用 开发 实战 (第 2 版 ) 


令 Web 开 发 入 门 经 典 教 材 “ 狗 书 ” 新 版 ， 针 对 Python 3 全 面 修订 
令 以 完整 项 目 开发 流程 为 例 ， 全 面 介 绍 Python 微 框架 Flask 


























回复 “Python” 查看 相关 书 单 


© 
微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


全 
QQ 连接 


图 灵 读 者 官方 群 I: 218139230 
图 灵 读 者 官方 群 I[: 164939616 





图 灵 社 区 
iTuring.cn 
在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 
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Python 网 络 扑 虫 权 威 指南 (第 2 版 ) 


作为 一 种 采集 和 理解 网 络 上 海量 信息 的 方式 ， 网 页 抓 取 技 术 变 得 越 来 越 
重要 。 而 编写 简单 的 自动 化 程序 (网络 仆 虫 ) ， 一 次 就 可 以 自动 抓 取 上 
百 万 个 网 页 中 的 信息 ， 实 现 高 效 的 数据 采集 和 处 理 ， 满 足 大 量 数 据 需求 
应 用 场景 。 

本 书 采用 简洁 强大 的 Python 语言 ， 全 面 介绍 网 页 抓 取 技 术 ， 解 答 诸多 常 
见 问 题 和 误解 ， 是 掌握 从 数据 爬 取 到 数据 清洗 全 流程 的 系统 实践 指南 。 
书 中 内 容 分 为 两 部 分 。 第 一 部 分 深入 讲解 网 页 抓 取 的 基础 知识 ， 重 点 介 
绍 BeautifulSoup、Scrapy 等 Python 库 的 应 用 。 第 二 部 分 介绍 网 络 爬 虫 编 
写 相关 的 主题 ， 以 及 各 种 数据 抓 取 工 具 和 应 用 程序 ， 帮 你 深入 互联 网 的 
每 个 角落 ， 分 析 原 始 数 据 ， 获 取 数 据 背后 的 故事 ， 轻 松 解决 遇 到 的 各 类 
网 页 抓 取 问 题 。 第 2 版 全 面 更 新 ， 新 增 网 络 礁 虫 模型 、Scrapy 和 并 行 网 页 
抓 取 相 关 章 节 。 


目 解析 复杂 的 HTML 页 面 

目 使 用 scrapy 框 架 开 发 疏 虫 

目 学 习 存储 数据 的 方法 

从 文档 中 读 取 和 提取 数据 

自然 语言 处 理 

通过 表单 和 登录 窗口 抓 取 数 据 

抓 取 JavaScript 及 利用 API 抓 取 数 据 
回 图 像 识别 与 文字 处 理 

目 避免 抓 取 陷 阱 和 反 息 虫 策略 

目 使 用 的 虫 测试 网 站 


“这 本 书 很 实用 ， 非 常 适合 用 来 


解决 实际 问题 。 我 就 利用 书 中 
的 工具 和 示例 轻松 地 将 一 些 重 
复 性 工作 自动 化 了 ， 进 而 将 省 





下 来 的 时 间 用 于 处 理 更 有 意思 的 
Eric VanWyk 

美国 欧 林 工程 学 院 

电子 计算 机 工程 师 


瑞安 . 米 切 尔 (Ryan Mitchell) ， 
数据 科学 家 、 软 件 工 程 师 ， 有 丰 
富 的 网 络 怜 虫 和 数据 分 析 实 战 经 
验 ， 目 前 就 职 于 美国 格 理 集团 ， 
经 常 为 网 页 数据 采集 项 目 提供 咨 
询 服 务 ， 并 在 美国 东北 大 学 和 美 
国 欧 林 工程 学 院 任教 。 
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